Command Palette

Search for a command to run...

7日前

VLM-SlideEval:PPTにおける構造的理解力および摂動感受性に関するVLMの評価

Hyeonsu Kang Emily Bao Anjan Goswami

VLM-SlideEval:PPTにおける構造的理解力および摂動感受性に関するVLMの評価

要約

視覚言語モデル(VLM)は、プレゼンテーションスライドを含むマルチモーダルコンテンツの評価にますます利用されるようになっているが、スライド固有の理解能力についてはまだ十分に検討されていない。本研究では、VLMの性能を3つの観点から評価するフレームワーク「VLM-SlideEval」を提案する。その評価軸は以下の通りである:(1)スライド画像から要素をピクセルレベルで抽出する能力(真値との整合性を評価);(2)幾何学的変形、スタイル変更、テキスト変更といった制御された摂動に対する堅牢性;(3)スライドの並び替えから元の物語的構成を回復するような高次理解能力。本研究では、Zenodoから公開されているスライドデータセット(このhttps URL)を活用し、PowerPointのXML形式とリアルタイムレンダリング結果から得られる真値の要素メタデータを統一的かつ検証可能なスキーマに標準化した。実証的な評価結果から、VLMはピクセルレベルでの正確な抽出において性能が不十分であり、制御された摂動下での一致度、忠実性、一貫性は有意な水準に達しているものの、単スライドのコンテンツ理解については比較的高い性能を示す一方で、複数スライド間の物語的構造を確実に捉えることはできないことが明らかになった。これらの結果は、現在のVLMがスライド評価において限界を抱えていることを示しており、エージェント型でモデル中心のパイプラインにおいて反復的な改善と選択を促進するための「批判者をパイプライン内に組み込んだ補正型評価手法」の導入が強く求められることを示唆している。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
VLM-SlideEval:PPTにおける構造的理解力および摂動感受性に関するVLMの評価 | 論文 | HyperAI超神経