HyperAIHyperAI

Command Palette

Search for a command to run...

LoCoNet: 長短コンテクストネットワークによるアクティブスピーカー検出

Xizi Wang¹ Feng Cheng² Gedas Bertasius² David Crandall¹

概要

アクティブ・スピーカー検出(Active Speaker Detection: ASD)は、ビデオの各フレームで誰が話しているかを特定することを目指しています。ASDは、音声情報と視覚情報を用いて、長期的な同一話者間コンテキストと短期的な複数話者間コンテキストの2つの文脈から推論します。長期的な同一話者間コンテキストは同じ話者の時間的依存関係をモデル化し、短期的な複数話者間コンテクストは同じシーン内の話者間の相互作用をモデル化します。これらの2つのコンテキストは互いに補完的であり、アクティブな話者を推定するのに役立ちます。このような観察に基づき、私たちはLoCoNetという単純かつ効果的な長期-短期コンテキストネットワークを提案します。LoCoNetでは、長期的な同一話者間コンテキストのモデリングにはその長距離依存関係のモデリングにおける有効性から自己注意機構(self-attention)を使用し、短期的な複数話者間コンテキストのモデリングには局所パターンを捉える畳み込みブロックを使用しています。広範な実験により、LoCoNetが複数のデータセットにおいて最先端の性能を達成することが示されています。具体的には、AVA-ActiveSpeakerデータセットでmAPが95.2% (+1.1%)、コロンビアデータセットで68.1% (+22%)、Talkiesデータセットで97.2% (+2.8%)、Ego4Dデータセットで59.7% (+8.0%)となっています。さらに、複数の話者が存在する場合やアクティブな話者の顔が同じシーン内の他の顔よりも著しく小さいような困難なケースでも、LoCoNetはAVA-ActiveSpeakerデータセットにおいて以前の最先端手法より3.4%高い性能を発揮しています。本研究に関連するコードは https://github.com/SJTUwxz/LoCoNet_ASD にて公開されます。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています