HyperAIHyperAI

Command Palette

Search for a command to run...

UniCon: 統合コンテキストネットワークによる堅牢なアクティブスピーカー検出

Yuanhang Zhang Susan Liang Shuang Yang Xiao Liu Zhongqin Wu Shiguang Shan Xilin Chen

概要

私たちは、堅牢なアクティブスピーカー検出(ASD)のための新しい効率的なフレームワーク、Unified Context Network (UniCon)を紹介します。従来のASD手法は通常、各候補者の事前に切り抜かれた顔トラックを個別に処理し、候補者間の関係性を十分に考慮していないため、特に低解像度の顔や複数の候補者が存在するなどの困難な状況下で性能が制限される可能性があります。私たちの解決策は、空間コンテキスト(各候補者の顔の位置とスケールを示す)、関係コンテキスト(候補者間の視覚的な関係性を捉え、音声-視覚アフィニティを相互に比較する)、および時間コンテキスト(長期情報を集約し、局所的な不確実性を平滑化する)といった複数種類のコンテキスト情報を統合的にモデル化することに焦点を当てた新しい統一フレームワークです。この情報に基づいて、当モデルは統一されたプロセスで全ての候補者を最適化し、堅牢かつ信頼性のあるASDを実現します。異なる設定のもとでいくつかの困難なASDベンチマークに対して詳細なアブレーションスタディが行われました。特に、当手法は3人の候補スピーカーがいるサブセットと64ピクセル未満の小さな顔が含まれるサブセットにおいて、平均精度(mAP)で既存の最先端手法よりも約15%絶対値高くなるという大きな差で優れています。これらにより、当UniConはAVA-ActiveSpeaker検証セットにおいて92.0% mAPを達成し、提出時点ではこの困難なデータセットにおいて初めて90%を超える結果となりました。プロジェクトウェブサイト: https://unicon-asd.github.io/.


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
UniCon: 統合コンテキストネットワークによる堅牢なアクティブスピーカー検出 | 記事 | HyperAI超神経