HyperAI
Command Palette
Search for a command to run...
UAVM: 音響と視覚モデルの統一に向けて
UAVM: 音響と視覚モデルの統一に向けて
Yuan Gong, Member, IEEE, Alexander H. Liu, Andrew Rouditchenko, and James Glass, Fellow, IEEE
概要
従来の音声視覚モデルは、音声と映像の独立したブランチを持つものでした。本研究では、統合音声視覚モデル(Unified Audio-Visual Model: UAVM)を設計することで、これらのブランチを統一しました。UAVMはVGGSoundにおいて、新しい最先端の音声視覚イベント分類精度65.8%を達成しています。さらに興味深いことに、UAVMにはモダリティに依存しない対応モデルには見られないいくつかの特徴的な性質が存在することが明らかになりました。