4ヶ月前

概要

認知的に妥当な量のデータ上で視覚言語モデルを学習するには、モデルが多様なモダリティ情報をどのように統合するかを再考する必要がある。2025年ベビーラムチャレンジのビジョントラックにおける制約条件下で、我々は以下の特徴を持つ軽量なデコーダベースのアーキテクチャを提案する：（1）語彙単位での動的ゲート制御により、言語的および視覚的ヒントの適応的融合を実現、（2）特徴のモジュレーションとチャネルアテンションにより、限られた視覚情報の有効活用を最大化、（3）視覚的接地を促進するための補助的コントラスト学習目的。5つのベンチマーク（BLiMP、BLiMP補足データ、EWoK、Winoground、VQA）における評価結果から、従来の多モーダルベースラインと比較して競争力ある、あるいは優れた性能が得られた。特に注目すべきは、明示的な教師信号なしに、動的ゲートが解釈可能なパターンを発見でき、内容語に対しては視覚的ヒントを優先し、機能語に対しては言語的ヒントを優先する傾向が見られたことである。一方で、チャレンジの制約に起因する課題、たとえばグローバルな画像埋め込みによる情報ボトルネックや、データセット分割に起因する学習の不安定性を指摘するが、本研究の成果は、動的ゲートが極めて制約の厳しい環境下でも、効率的な多モーダル学習に有効なツールであることを示しており、解釈可能性と性能の両面で優れたパフォーマンスを発揮することが明らかになった。

ソースPDF