18日前

事前学習された視覚および言語モデルは、視覚的情報探索型質問に答えられるか？

Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang

要約

事前学習された視覚・言語モデルは、画像とテキストを含む既存のタスクにおいて、最先端の性能を示している。特に視覚質問応答（Visual Question Answering, VQA）において顕著な成果を上げている。しかし、こうしたモデルが、視覚的コンテンツにのみ依存するのではなく、知識を必要とし、情報収集を目的とする質問にも対応できるかどうかは、依然として不明である。本研究では、共通の常識知識だけでは回答できない情報収集型の質問に特化した視覚質問応答データセット「InfoSeek」を提案する。InfoSeekを用いて、さまざまな事前学習済み視覚質問応答モデルの性能を分析し、その特徴に関する洞察を得た。分析の結果、最先端のマルチモーダル事前学習モデル（例：PaLI-X、BLIP2など）は、情報収集型の視覚質問に対しては依然として課題を抱えていることが明らかになった。しかし、InfoSeekデータセット上で微調整（fine-tuning）を行うことで、モデルが事前学習段階で習得した細粒度の知識を有効に活用するようになることが示された。さらに、正確な視覚エンティティ認識を活用し、関連するドキュメントを検索することで、InfoSeekにおける性能向上が可能であることを示した。これにより、さらなる性能改善の余地が明確に示された。