19日前

動的マルチモーダル融合

Zihui Xue, Radu Marculescu
動的マルチモーダル融合
要約

近年、深層マルチモーダル学習は著しい進展を遂げている。しかし、現在の統合手法は本質的に静的であり、異なるマルチモーダルデータに応じた多様な計算要求を考慮せずに、すべての入力に対して同一の計算処理を行っている。本研究では、推論時にデータに依存する前向きパスを生成し、マルチモーダルデータを適応的に統合する新たなアプローチである「動的マルチモーダル統合(Dynamic Multimodal Fusion, DynMM)」を提案する。この目的のため、マルチモーダル特徴に基づいてモダリティレベルまたは統合レベルの判断をリアルタイムで行うゲーティング関数を導入し、計算リソースの使用状況を意識した損失関数を設計した。さまざまなマルチモーダルタスクにおける実験結果から、本手法の効率性と広範な適用可能性が示された。例えば、CMU-MOSEIのセンチメント分析では、精度の低下をほとんど認めず計算コストを46.5%削減でき、NYU Depth V2のセマンティックセグメンテーションでは計算量を21%以上削減しつつ性能を向上させた。これらの結果から、本手法は静的統合アプローチに比べて顕著な利点を示しており、動的マルチモーダルネットワーク設計の新たな道を開くものと考えられる。今後、幅広いマルチモーダルタスクへの応用が期待される。

動的マルチモーダル融合 | 論文 | HyperAI超神経