HyperAIHyperAI

Command Palette

Search for a command to run...

ドキュメントヘイストック:長文脈マルチモーダル画像/ドキュメント理解を対象としたビジョンLLMベンチマーク

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

概要

マルチモーダル大規模言語モデルの普及により、異なるモダリティからの複雑なデータ入力を分析・理解する能力は著しく向上している。しかし、長文ドキュメントの処理については、適切なベンチマークが不足していることから、まだ十分に検討されていない。この課題に対応するため、本研究では、視覚的に複雑な長文ドキュメントに対する視覚言語モデル(VLM)の性能を評価することを目的とした包括的なベンチマーク「Document Haystack」を提案する。Document Haystack は、5~200ページにわたるドキュメントを対象とし、ドキュメント内のさまざまな深さに純テキストまたはマルチモーダル(テキスト+画像)の「ニードル」を戦略的に挿入することで、VLMの情報検索能力を厳しく試す構成となっている。本ベンチマークは400種類のドキュメントバリエーションと合計8,250問の質問を含み、客観的かつ自動化された評価フレームワークを備えている。本稿では、Document Haystackデータセットの構築方法と特徴を詳述し、主要なVLMの実験結果を提示した上で、この分野における今後の研究課題について議論する。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
ドキュメントヘイストック:長文脈マルチモーダル画像/ドキュメント理解を対象としたビジョンLLMベンチマーク | 記事 | HyperAI超神経