8ヶ月前

マルチモーダル

マルチモーダル表現

マルチモーダル

Yuan Gong, Member, IEEE, Alexander H. Liu, Andrew Rouditchenko, and James Glass, Fellow, IEEE

概要

従来の音声視覚モデルは、音声と映像の独立したブランチを持つものでした。本研究では、統合音声視覚モデル（Unified Audio-Visual Model: UAVM）を設計することで、これらのブランチを統一しました。UAVMはVGGSoundにおいて、新しい最先端の音声視覚イベント分類精度65.8%を達成しています。さらに興味深いことに、UAVMにはモダリティに依存しない対応モデルには見られないいくつかの特徴的な性質が存在することが明らかになりました。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています