Command Palette
Search for a command to run...
大規模視覚言語モデルにおける自己改善を通じた視覚-言語モダリティのアライメント強化
大規模視覚言語モデルにおける自己改善を通じた視覚-言語モダリティのアライメント強化
概要
大規模視覚言語モデル(LVLMs)は、特定のデータセット上で視覚指示調整を行うことで、視覚的な質問応答や推論タスクにおいて印象的な結果を達成しています。しかし、視覚と言語モダリティの整合性を向上させる余地がまだ大きく存在しています。既存の方法はしばしば外部モデルやデータに依存しており、これにより制御不能で不安定な整合性結果が生じることがあります。本論文では、SIMA(Self-Improvement Modality Alignment)という自己改善フレームワークを提案します。このフレームワークは外部依存なしに視覚と言語モダリティの整合性を向上させます。SIMAは既存の視覚指示調整データセットを利用して自己生成応答を行い、コンテキスト内での自己批評メカニズムを導入して偏好ペアを作成します。特に、当手法は効果的な批評プロンプト設計によってLVLM自体が批評者として機能し、外部指示データを使用した追加の微調整が必要なくなるようにしています。また、自己批評プロセス内で3つの新しい視覚指標を導入し、自己批評の精度を大幅に向上させています。14種類の幻覚および包括的ベンチマークにおける広範な実験を通じて、SIMAがLVLMの性能を大幅に向上させ、従来の手法よりも優れたモダリティ整合性を達成することを示しています。