16日前

コンポジショナル推論のための大型ビジョン・言語モデルへのプロンプト設計

Timothy Ossowski, Ming Jiang, Junjie Hu

要約

CLIPをはじめとする視覚言語モデルは、テキストと画像を統一された埋め込み空間に符号化する能力を示しており、マルチモーダルデータの検索を可能にしている。しかし、これらの埋め込みベースのモデルは、視覚的・言語的構成性（visio-linguistic compositionality）が類似する画像とテキスト間の正確な一致を効果的に実現する点で依然として課題を抱えている。これは最近のWinogroundデータセットにおける性能低下からも明らかである。本論文では、この限界が2つの要因に起因すると主張する。第一に、複雑なマルチモーダルデータに対して単一のベクトル表現を用いること、第二に、これらの埋め込みベースの手法に段階的な推論プロセスが欠如していることである。この問題に対処するため、大規模な視覚言語モデル（例：GPT-4）を用いて画像を描写させ、構成的推論（compositional reasoning）を実行する新しい生成手法を提案する。このアプローチは、Winogroundデータセットにおいて他の埋め込みベース手法を上回る性能を発揮し、最適な記述を組み合わせることで、さらに最大10%の精度向上が達成された。