2ヶ月前

野生環境下でのオーディオビジュアルアクティブスピーカー検出のための3段階アーキテクチャ設計方法

Köpüklü, Okan ; Taseska, Maja ; Rigoll, Gerhard
野生環境下でのオーディオビジュアルアクティブスピーカー検出のための3段階アーキテクチャ設計方法
要約

成功したアクティブスピーカー検出には、3段階のパイプラインが必要です。(i) クリップ内のすべてのスピーカーの音声-視覚エンコーディング、(ii) 各フレームにおける基準スピーカーと背景スピーカー間の相互関係モデリング、(iii) 基準スピーカーの時間的なモデリング。このパイプラインの各段階は、作成されたアーキテクチャの最終的な性能に重要な役割を果たします。一連の制御された実験に基づいて、本研究では音声-視覚アクティブスピーカー検出に関するいくつかの実践的なガイドラインを提示します。それに応じて、新しいアーキテクチャであるASDNet(Audio-Visual Active Speaker Detection Network)を提案し、AVA-ActiveSpeakerデータセットにおいてmAP(Mean Average Precision)が93.5%という新たな最先端の成果を達成しました。これは2番目に優れた方法よりも4.7%の大差で上回っています。当社のコードと事前学習済みモデルは公開されています。

野生環境下でのオーディオビジュアルアクティブスピーカー検出のための3段階アーキテクチャ設計方法 | 最新論文 | HyperAI超神経