6ヶ月前

ドキュメント理解

視覚ドキュメント検索

自然言語処理

マルチモーダル

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

概要

マルチモーダル大規模言語モデルの普及により、異なるモダリティからの複雑なデータ入力を分析・理解する能力は著しく向上している。しかし、長文ドキュメントの処理については、適切なベンチマークが不足していることから、まだ十分に検討されていない。この課題に対応するため、本研究では、視覚的に複雑な長文ドキュメントに対する視覚言語モデル（VLM）の性能を評価することを目的とした包括的なベンチマーク「Document Haystack」を提案する。Document Haystack は、5～200ページにわたるドキュメントを対象とし、ドキュメント内のさまざまな深さに純テキストまたはマルチモーダル（テキスト＋画像）の「ニードル」を戦略的に挿入することで、VLMの情報検索能力を厳しく試す構成となっている。本ベンチマークは400種類のドキュメントバリエーションと合計8,250問の質問を含み、客観的かつ自動化された評価フレームワークを備えている。本稿では、Document Haystackデータセットの構築方法と特徴を詳述し、主要なVLMの実験結果を提示した上で、この分野における今後の研究課題について議論する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

ドキュメント理解

視覚ドキュメント検索

自然言語処理

マルチモーダル

Goeric Huybrechts Srikanth Ronanki Sai Muralidhar Jayanthi Jack Fitzgerald Srinivasan Veeravanallur

概要

マルチモーダル大規模言語モデルの普及により、異なるモダリティからの複雑なデータ入力を分析・理解する能力は著しく向上している。しかし、長文ドキュメントの処理については、適切なベンチマークが不足していることから、まだ十分に検討されていない。この課題に対応するため、本研究では、視覚的に複雑な長文ドキュメントに対する視覚言語モデル（VLM）の性能を評価することを目的とした包括的なベンチマーク「Document Haystack」を提案する。Document Haystack は、5～200ページにわたるドキュメントを対象とし、ドキュメント内のさまざまな深さに純テキストまたはマルチモーダル（テキスト＋画像）の「ニードル」を戦略的に挿入することで、VLMの情報検索能力を厳しく試す構成となっている。本ベンチマークは400種類のドキュメントバリエーションと合計8,250問の質問を含み、客観的かつ自動化された評価フレームワークを備えている。本稿では、Document Haystackデータセットの構築方法と特徴を詳述し、主要なVLMの実験結果を提示した上で、この分野における今後の研究課題について議論する。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています