2ヶ月前

UAVM: 音響と視覚モデルの統一に向けて

Yuan Gong; Alexander H. Liu; Andrew Rouditchenko; James Glass
UAVM: 音響と視覚モデルの統一に向けて
要約

従来の音声視覚モデルは、音声と映像の独立したブランチを持つものでした。本研究では、統合音声視覚モデル(Unified Audio-Visual Model: UAVM)を設計することで、これらのブランチを統一しました。UAVMはVGGSoundにおいて、新しい最先端の音声視覚イベント分類精度65.8%を達成しています。さらに興味深いことに、UAVMにはモダリティに依存しない対応モデルには見られないいくつかの特徴的な性質が存在することが明らかになりました。

UAVM: 音響と視覚モデルの統一に向けて | 最新論文 | HyperAI超神経