HyperAIHyperAI

Command Palette

Search for a command to run...

事前学習された視覚および言語モデルは、視覚的情報探索型質問に答えられるか?

Yang Chen Hexiang Hu Yi Luan Haitian Sun Soravit Changpinyo Alan Ritter Ming-Wei Chang

概要

事前学習された視覚・言語モデルは、画像とテキストを含む既存のタスクにおいて、最先端の性能を示している。特に視覚質問応答(Visual Question Answering, VQA)において顕著な成果を上げている。しかし、こうしたモデルが、視覚的コンテンツにのみ依存するのではなく、知識を必要とし、情報収集を目的とする質問にも対応できるかどうかは、依然として不明である。本研究では、共通の常識知識だけでは回答できない情報収集型の質問に特化した視覚質問応答データセット「InfoSeek」を提案する。InfoSeekを用いて、さまざまな事前学習済み視覚質問応答モデルの性能を分析し、その特徴に関する洞察を得た。分析の結果、最先端のマルチモーダル事前学習モデル(例:PaLI-X、BLIP2など)は、情報収集型の視覚質問に対しては依然として課題を抱えていることが明らかになった。しかし、InfoSeekデータセット上で微調整(fine-tuning)を行うことで、モデルが事前学習段階で習得した細粒度の知識を有効に活用するようになることが示された。さらに、正確な視覚エンティティ認識を活用し、関連するドキュメントを検索することで、InfoSeekにおける性能向上が可能であることを示した。これにより、さらなる性能改善の余地が明確に示された。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています