LoCoNet: 長短コンテクストネットワークによるアクティブスピーカー検出

アクティブ・スピーカー検出(Active Speaker Detection: ASD)は、ビデオの各フレームで誰が話しているかを特定することを目指しています。ASDは、音声情報と視覚情報を用いて、長期的な同一話者間コンテキストと短期的な複数話者間コンテキストの2つの文脈から推論します。長期的な同一話者間コンテキストは同じ話者の時間的依存関係をモデル化し、短期的な複数話者間コンテクストは同じシーン内の話者間の相互作用をモデル化します。これらの2つのコンテキストは互いに補完的であり、アクティブな話者を推定するのに役立ちます。このような観察に基づき、私たちはLoCoNetという単純かつ効果的な長期-短期コンテキストネットワークを提案します。LoCoNetでは、長期的な同一話者間コンテキストのモデリングにはその長距離依存関係のモデリングにおける有効性から自己注意機構(self-attention)を使用し、短期的な複数話者間コンテキストのモデリングには局所パターンを捉える畳み込みブロックを使用しています。広範な実験により、LoCoNetが複数のデータセットにおいて最先端の性能を達成することが示されています。具体的には、AVA-ActiveSpeakerデータセットでmAPが95.2% (+1.1%)、コロンビアデータセットで68.1% (+22%)、Talkiesデータセットで97.2% (+2.8%)、Ego4Dデータセットで59.7% (+8.0%)となっています。さらに、複数の話者が存在する場合やアクティブな話者の顔が同じシーン内の他の顔よりも著しく小さいような困難なケースでも、LoCoNetはAVA-ActiveSpeakerデータセットにおいて以前の最先端手法より3.4%高い性能を発揮しています。本研究に関連するコードは https://github.com/SJTUwxz/LoCoNet_ASD にて公開されます。