
要約
動画におけるアクティブスピーカー検出は、ビデオフレームに可視化されたソース顔を音声モダリティの背後の音声信号と関連付ける問題を扱います。このような音声-顔の関係を導き出すための主な情報源は、i) 視覚活動とその音声信号との相互作用、ii) 顔と音声という形式でのモダリティ間での話者アイデンティティの共起です。これらの2つのアプローチにはそれぞれ制限があります:オーディオ-ビジュアル活動モデルは笑いや咀嚼などの頻繁に発生する他の音声活動と混同される可能性があり、一方で話者アイデンティティに基づく方法は十分な解釈情報を有するビデオに限定されます。これら2つのアプローチが独立しているため、本研究ではそれらの補完性を探ります。私たちは、アクティブスピーカー検出のためにオーディオ-ビジュアル活動と話者のクロスモダリティアイデンティティ関連付けをガイドする新しい非監督フレームワークを提案します。2つのベンチマークデータセット(AVA アクティブスピーカー(映画)および Visual Person Clustering データセット(テレビ番組))からエンターテインメントメディア動画に対する実験を通じて、2つのアプローチの単純な遅延融合がアクティブスピーカー検出性能を向上させることを示しています。