
要約
従来の音声視覚モデルは、音声と映像の独立したブランチを持つものでした。本研究では、統合音声視覚モデル(Unified Audio-Visual Model: UAVM)を設計することで、これらのブランチを統一しました。UAVMはVGGSoundにおいて、新しい最先端の音声視覚イベント分類精度65.8%を達成しています。さらに興味深いことに、UAVMにはモダリティに依存しない対応モデルには見られないいくつかの特徴的な性質が存在することが明らかになりました。
従来の音声視覚モデルは、音声と映像の独立したブランチを持つものでした。本研究では、統合音声視覚モデル(Unified Audio-Visual Model: UAVM)を設計することで、これらのブランチを統一しました。UAVMはVGGSoundにおいて、新しい最先端の音声視覚イベント分類精度65.8%を達成しています。さらに興味深いことに、UAVMにはモダリティに依存しない対応モデルには見られないいくつかの特徴的な性質が存在することが明らかになりました。