2ヶ月前

CAT: 動的オーディオビジュアルシナリオでの質問応答を強化するマルチモーダル大規模言語モデル

Qilang Ye; Zitong Yu; Rui Shao; Xinyu Xie; Philip Torr; Xiaochun Cao
CAT: 動的オーディオビジュアルシナリオでの質問応答を強化するマルチモーダル大規模言語モデル
要約

本論文は、豊かで複雑な動的な音声視覚要素から構成されるシナリオにおける質問回答の課題に焦点を当てています。既存のマルチモーダル大規模言語モデル(MLLM)は音声視覚コンテンツに応答できますが、これらの応答はしばしば曖昧であり、特定の音声視覚イベントを正確に描写できないことがあります。この制約を克服するために、CAT(Clue Aggregator Transformer)を導入します。CATは以下の3つの方法でMLLMを強化します:1) 音声と映像を単純に橋渡すだけでなく、動的な音声視覚シナリオにおいて質問に関連する手がかりを集めるための手がかり集約器(clue aggregator)を設計し、大規模言語モデルが必要とする詳細な知識を豊かにします。2) CATは混合マルチモーダルデータセットで学習され、音声視覚シナリオへの直接的な適用が可能となります。特に、クロス意味論的相関性をモデル化する能力をさらに向上させるために、音声視覚統合指示データセット「AVinstruct」を収集しました。3) 我々はAI支援下的明確性認識直接嗜好最適化(AI-assisted ambiguity-aware direct preference optimization)という戦略を提案します。これはモデルの再学習に特化した手法で、曖昧さのない応答を優先し、特定の音声視覚オブジェクトの位置特定能力を向上させます。広範な実験結果により、CATがマルチモーダルタスクにおいて既存の手法よりも優れていることが示されています。特にAudio-Visual Question Answering (AVQA) タスクにおいてその性能が際立っています。コードと収集した指示は https://github.com/rikeilong/Bay-CAT で公開されています。