8ヶ月前

概要

私たちは、堅牢なアクティブスピーカー検出（ASD）のための新しい効率的なフレームワーク、Unified Context Network (UniCon)を紹介します。従来のASD手法は通常、各候補者の事前に切り抜かれた顔トラックを個別に処理し、候補者間の関係性を十分に考慮していないため、特に低解像度の顔や複数の候補者が存在するなどの困難な状況下で性能が制限される可能性があります。私たちの解決策は、空間コンテキスト（各候補者の顔の位置とスケールを示す）、関係コンテキスト（候補者間の視覚的な関係性を捉え、音声-視覚アフィニティを相互に比較する）、および時間コンテキスト（長期情報を集約し、局所的な不確実性を平滑化する）といった複数種類のコンテキスト情報を統合的にモデル化することに焦点を当てた新しい統一フレームワークです。この情報に基づいて、当モデルは統一されたプロセスで全ての候補者を最適化し、堅牢かつ信頼性のあるASDを実現します。異なる設定のもとでいくつかの困難なASDベンチマークに対して詳細なアブレーションスタディが行われました。特に、当手法は3人の候補スピーカーがいるサブセットと64ピクセル未満の小さな顔が含まれるサブセットにおいて、平均精度（mAP）で既存の最先端手法よりも約15%絶対値高くなるという大きな差で優れています。これらにより、当UniConはAVA-ActiveSpeaker検証セットにおいて92.0% mAPを達成し、提出時点ではこの困難なデータセットにおいて初めて90%を超える結果となりました。プロジェクトウェブサイト: https://unicon-asd.github.io/.

ソースPDF コードを表示