2ヶ月前
CoCoT: 多重画像入力を持つ大規模マルチモーダルモデルのためのコントラスティブな思考連鎖プロンプティング
Zhang, Daoan ; Yang, Junming ; Lyu, Hanjia ; Jin, Zijian ; Yao, Yuan ; Chen, Mingkai ; Luo, Jiebo

要約
人工一般知能(AGI)の開発を探究する際、これらのモデルにとって重要な課題の一つは、複数の画像入力から情報を解釈し処理することである。しかし、大規模マルチモーダルモデル(LMMs)はこのようなシナリオで2つの問題に直面している:(1) 細部認識の不足、および (2) 複数の画像間での情報の混在傾向である。まず、LMMsが複数の入力画像を扱う際に細部視覚詳細を認識する能力について広範に調査した。研究は以下の2つの側面に焦点を当てている:第一に、画像対画像マッチング(LMMsが効果的に推論し、関連のある画像をペアリングできるかどうかを評価するため)、第二に、複数画像対テキストマッチング(LMMsが詳細な画像情報を正確に捉え要約できるかどうかを評価するため)。評価にはオープンソースとクローズドソースの大規模モデルの両方を使用し、GPT-4V、Gemini、OpenFlamingo、MMICLなどのモデルを取り上げた。モデル性能向上のために、さらに多入力マルチモーダルモデルに基づくコントラスティブ思考チェーン(CoCoT)プロンプト手法を開発した。この手法では、LMMsに対して複数の画像入力間の類似点と相違点を比較させることを求め、その後識別された類似点と相違点に基づいて複数画像入力に関する詳細な質問に答えるようガイドする。実験結果は、CoCoTが大規模マルチモーダルモデルの多画像理解能力向上において高い効果性を持つことを示している。