HyperAIHyperAI

Command Palette

Search for a command to run...

UAVM: 音響と視覚モデルの統一に向けて

Yuan Gong, Member, IEEE, Alexander H. Liu, Andrew Rouditchenko, and James Glass, Fellow, IEEE

概要

従来の音声視覚モデルは、音声と映像の独立したブランチを持つものでした。本研究では、統合音声視覚モデル(Unified Audio-Visual Model: UAVM)を設計することで、これらのブランチを統一しました。UAVMはVGGSoundにおいて、新しい最先端の音声視覚イベント分類精度65.8%を達成しています。さらに興味深いことに、UAVMにはモダリティに依存しない対応モデルには見られないいくつかの特徴的な性質が存在することが明らかになりました。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています