19日前
MiCo: 複数画像の対照性を用いた強化学習視覚推論
Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao

要約
本研究は、複数の画像間で視覚的な手がかりを結びつけるための思考連鎖(Chain-of-Thought: CoT)推論の実現を探究しています。一見単純な解決策は、ビジョン言語モデル(Vision-Language Models: VLMs)に対してルールベースの強化学習を適応することですが、このような方法は通常、手動で整理された質問回答ペアに依存しており、特に細かい視覚的詳細や画像間の複雑な論理を扱う際には困難が伴います。自己教師なし視覚表現学習から着想を得て、私たちは画像に内在する制約が教師役として機能しうることに注目しました。この洞察に基づき、同じ画像の2つの拡張ビューと、類似しているが異なる3つ目の画像からなる画像トリプレットを構築しました。訓練中には、モデルに対してこれらの画像を比較する推論プロセス(つまり、同一か異なるかを判断する)を生成するように促します。その後、ルールベースの強化学習によりモデルを最適化します。高い視覚的類似性と拡張処理の存在により、モデルは微妙な視覚的変化に注目し、論理的な推論を行う必要があります。実験結果は示していますが、視覚比較タスクのみで訓練されたにもかかわらず、学習した推論能力は幅広い質問に対して効果的に一般化されます。人間による質問回答ペアへの依存なく、当手法は多画像推論ベンチマークにおいて大幅な改善を達成し、一般的なビジョンタスクでも優れた性能を発揮しています。