15日前

マルチモーダル統合のためのアテンションボトルネック

Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid, Chen Sun

要約

人間は、視覚や音声など複数の感覚モダリティから得られる高次元の入力を同時に処理・統合することで、世界を認識している。これに対し、機械の認識モデルは一般的にモダリティに特化しており、単一モダリティのベンチマークに最適化されており、多モダリティ動画分類において依然として、各モダリティの最終的な表現や予測を後段で統合する「ラテ・フュージョン（late-fusion）」が主流である。本研究では、複数の層で「フュージョン・ボトルネック（fusion bottlenecks）」を用いた新たなトランスフォーマー基盤アーキテクチャを提案する。従来のペアワイズ自己注意機構とは異なり、本モデルは異なるモダリティ間の情報伝達を少数のボトルネック潜在変数を経由させるように設計されており、各モダリティから最も関連性の高い情報を集約・凝縮し、必要最小限の情報のみを共有する必要性をモデルに強いる。我々は、この戦略が統合性能を向上させると同時に、計算コストの削減にも寄与することを確認した。詳細なアブレーションスタディを実施し、Audioset、Epic-Kitchens、VGGSoundを含む複数の音声視覚分類ベンチマークで最先端の性能を達成した。本研究のすべてのコードおよびモデルは公開予定である。