Command Palette

Search for a command to run...

1ヶ月前

学びを追求する:リソースが限られた視覚言語モデリングのためのトークン別ダイナミックゲーティング

Bianca-Mihaela Ganescu Suchir Salhan Andrew Caines Paula Buttery

学びを追求する:リソースが限られた視覚言語モデリングのためのトークン別ダイナミックゲーティング

要約

認知的に妥当な量のデータ上で視覚言語モデルを学習するには、モデルが多様なモダリティ情報をどのように統合するかを再考する必要がある。2025年ベビーラムチャレンジのビジョントラックにおける制約条件下で、我々は以下の特徴を持つ軽量なデコーダベースのアーキテクチャを提案する:(1)語彙単位での動的ゲート制御により、言語的および視覚的ヒントの適応的融合を実現、(2)特徴のモジュレーションとチャネルアテンションにより、限られた視覚情報の有効活用を最大化、(3)視覚的接地を促進するための補助的コントラスト学習目的。5つのベンチマーク(BLiMP、BLiMP補足データ、EWoK、Winoground、VQA)における評価結果から、従来の多モーダルベースラインと比較して競争力ある、あるいは優れた性能が得られた。特に注目すべきは、明示的な教師信号なしに、動的ゲートが解釈可能なパターンを発見でき、内容語に対しては視覚的ヒントを優先し、機能語に対しては言語的ヒントを優先する傾向が見られたことである。一方で、チャレンジの制約に起因する課題、たとえばグローバルな画像埋め込みによる情報ボトルネックや、データセット分割に起因する学習の不安定性を指摘するが、本研究の成果は、動的ゲートが極めて制約の厳しい環境下でも、効率的な多モーダル学習に有効なツールであることを示しており、解釈可能性と性能の両面で優れたパフォーマンスを発揮することが明らかになった。

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング
すぐに使える GPU
最適価格
今すぐ始める

Hyper Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています