HyperAIHyperAI

Command Palette

Search for a command to run...

マルチモーダル統合のためのアテンションボトルネック

Arsha Nagrani Shan Yang Anurag Arnab Aren Jansen Cordelia Schmid Chen Sun

概要

人間は、視覚や音声など複数の感覚モダリティから得られる高次元の入力を同時に処理・統合することで、世界を認識している。これに対し、機械の認識モデルは一般的にモダリティに特化しており、単一モダリティのベンチマークに最適化されており、多モダリティ動画分類において依然として、各モダリティの最終的な表現や予測を後段で統合する「ラテ・フュージョン(late-fusion)」が主流である。本研究では、複数の層で「フュージョン・ボトルネック(fusion bottlenecks)」を用いた新たなトランスフォーマー基盤アーキテクチャを提案する。従来のペアワイズ自己注意機構とは異なり、本モデルは異なるモダリティ間の情報伝達を少数のボトルネック潜在変数を経由させるように設計されており、各モダリティから最も関連性の高い情報を集約・凝縮し、必要最小限の情報のみを共有する必要性をモデルに強いる。我々は、この戦略が統合性能を向上させると同時に、計算コストの削減にも寄与することを確認した。詳細なアブレーションスタディを実施し、Audioset、Epic-Kitchens、VGGSoundを含む複数の音声視覚分類ベンチマークで最先端の性能を達成した。本研究のすべてのコードおよびモデルは公開予定である。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
マルチモーダル統合のためのアテンションボトルネック | 記事 | HyperAI超神経