8ヶ月前

概要

マルチモーダル大規模言語モデル（MLLM）は視覚入力に基づいた応答生成において優れた性能を発揮するが、しばしば事前学習コーパスの統計的特徴に偏り、視覚情報の重要性が損なわれる傾向がある。本研究では、この偏りを「事前学習統計に対する好み（preference）」と捉え、モデルの視覚入力への根拠づけ（grounding）を妨げる要因とみなす。この問題を軽減するために、自己生成された誤った応答（negative responses）をデータセットにブートストラップ（再帰的生成）することで、好み学習（preference learning）を実施する「ブートストラップ・プレファレンス最適化（Bootstrapped Preference Optimization, BPO）」を提案する。具体的には以下の2つの戦略を採用する：1）MLLMに歪みを加えた画像入力を与え、事前学習バイアスを反映した応答を引き出す；2）テキストベースの大規模言語モデル（LLM）を活用し、元の応答に誤りながらも一般的な要素を意図的に挿入する。これらの不適切な応答を、データセットに含まれる元の正解応答（annotated responses）とペアにして、好み学習用データセットを構築し、その後、このデータセットを用いて好み学習を実施する。本手法は、事前学習されたLLMのバイアスを効果的に抑制し、視覚入力に対するより強固な根拠づけを実現する。広範な実験により、複数のベンチマーク上で顕著な性能向上が確認され、マルチモーダル会話システムの最先端水準をさらに推し進めることに成功した。

ソースPDF