
本論文では、推論時にスケーラブルな画像キャプション生成戦略であるScaleCapを提案します。高品質な画像キャプション生成の主要な課題は、大規模言語モデル(LVLM)の固有のバイアスにあります:マルチモーダルバイアスにより記述の粒度が不均衡になり、一部の要素には詳細な説明が与えられる一方で他の要素は軽く触れられるだけになります;言語バイアスにより存在しない物体に対する幻覚的な説明が生じます。これらの問題に対処するため、我々は推論コストを増加させることで継続的にキャプションを豊かにし、調整するスケーラブルなデバイアス化キャプション生成戦略を提案します。具体的には、ヒューリスティック質問応答とコントラストティブ文評価という2つの新規コンポーネントを提案します。前者は画像に基づいて内容特異的な質問を生成し、それらに回答することで段階的に関連情報をキャプションに注入します。後者は文レベルでのオフラインコントラストティブデコーディングを使用して、言語バイアスによって引き起こされる幻覚的な説明を効果的に識別し除去します。推論コストが増加すると、ScaleCapはより多くのヒューリスティック質問を提起し、追加の視覚的詳細を段階的に捉えることで、より正確でバランスの取れた情報量豊かなキャプションを生成します。広範囲にわたるモダリティアライメント実験によりScaleCapの有効性が示されています。45万枚の画像にScaleCapを使用して注釈を行い、それを大規模言語モデル(LVLM)の事前学習に利用した結果、11個の広く使用されているベンチマークにおいて一貫した性能向上が見られました。さらに、ScaleCapはVQAタスクにおける画像置換やキャプションからの画像再構築といった2つの追加タスクを通じて生成されたキャプションの優れた豊かさと忠実性を示しています。コードはhttps://github.com/Cooperx521/ScaleCap から入手可能です。