HyperAIHyperAI

Command Palette

Search for a command to run...

野生環境下でのオーディオビジュアルアクティブスピーカー検出のための3段階アーキテクチャ設計方法

Köpüklü Okan ; Taseska Maja ; Rigoll Gerhard

概要

成功したアクティブスピーカー検出には、3段階のパイプラインが必要です。(i) クリップ内のすべてのスピーカーの音声-視覚エンコーディング、(ii) 各フレームにおける基準スピーカーと背景スピーカー間の相互関係モデリング、(iii) 基準スピーカーの時間的なモデリング。このパイプラインの各段階は、作成されたアーキテクチャの最終的な性能に重要な役割を果たします。一連の制御された実験に基づいて、本研究では音声-視覚アクティブスピーカー検出に関するいくつかの実践的なガイドラインを提示します。それに応じて、新しいアーキテクチャであるASDNet(Audio-Visual Active Speaker Detection Network)を提案し、AVA-ActiveSpeakerデータセットにおいてmAP(Mean Average Precision)が93.5%という新たな最先端の成果を達成しました。これは2番目に優れた方法よりも4.7%の大差で上回っています。当社のコードと事前学習済みモデルは公開されています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています