タグ
#Vision Language Modelの記事一覧
1件の記事があります。
RAG・検索
ColPaliとは?PDFを画像のまま検索できる視覚RAGの仕組みと使い道
ColPaliは、PDFをOCRでテキスト化してから検索するのではなく、ページ画像をそのまま埋め込み検索する文書検索技術です。図表やレイアウトを含む文書検索でなぜ強いのか、仕組み、評価結果、RAGへの使い道まで日本語で解説します。
参照論文:ColPali: Efficient Document Retrieval with Vision Language Models