HyperAIHyperAI

Command Palette

Search for a command to run...

アクティブスピーカー検出における不確実性に基づく多モーダル融合を用いた多目的最適化

Baptiste Pouthier Laurent Pilati Leela K. Gudupudi Charles Bouveyron Frederic Precioso

概要

さまざまな研究から、ビデオとオーディオデータを組み合わせることでアクティブスピーカー検出に著しい効果があることが確立されています。しかし、いずれかのモダリティが信頼性の低いまたは誤った情報を引き起こす可能性があり、音声視覚融合を誤導する恐れがあります。本論文では、新しい自己注意に基づく不確実性マルチモーダル融合スキームを使用して、各モダリティの最良の点を活用するため、アクティブスピーカー検出を多目的学習問題として整理しています。得られた結果は、提案された多目的学習アーキテクチャが従来の手法よりもmAP(平均精度)とAUC(受信者操作特性曲線下面積)スコアの向上において優れていることを示しています。さらに、我々の融合戦略がさまざまな分野で報告されている他のモダリティ融合方法よりもアクティブスピーカー検出において優れていることを示しています。最後に、提案された方法がAVA-ActiveSpeakerデータセットでの最先端技術を大幅に上回ることを示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
アクティブスピーカー検出における不確実性に基づく多モーダル融合を用いた多目的最適化 | 記事 | HyperAI超神経