2ヶ月前
アクティブスピーカー検出における不確実性に基づく多モーダル融合を用いた多目的最適化
Pouthier, Baptiste ; Pilati, Laurent ; Gudupudi, Leela K. ; Bouveyron, Charles ; Precioso, Frederic

要約
さまざまな研究から、ビデオとオーディオデータを組み合わせることでアクティブスピーカー検出に著しい効果があることが確立されています。しかし、いずれかのモダリティが信頼性の低いまたは誤った情報を引き起こす可能性があり、音声視覚融合を誤導する恐れがあります。本論文では、新しい自己注意に基づく不確実性マルチモーダル融合スキームを使用して、各モダリティの最良の点を活用するため、アクティブスピーカー検出を多目的学習問題として整理しています。得られた結果は、提案された多目的学習アーキテクチャが従来の手法よりもmAP(平均精度)とAUC(受信者操作特性曲線下面積)スコアの向上において優れていることを示しています。さらに、我々の融合戦略がさまざまな分野で報告されている他のモダリティ融合方法よりもアクティブスピーカー検出において優れていることを示しています。最後に、提案された方法がAVA-ActiveSpeakerデータセットでの最先端技術を大幅に上回ることを示しています。