11日前

LASER:ロバスト性を向上させるためのリップランドマーク補助型スピーカ検出

Le Thien Phuc Nguyen, Zhuoran Yu, Yong Jae Lee
LASER:ロバスト性を向上させるためのリップランドマーク補助型スピーカ検出
要約

アクティブスピーカー検出(Active Speaker Detection: ASD)は、複雑な視覚シーンにおいて話している人物を特定することを目的としている。人間は唇の動きと音声を対応させることで容易に発話者を識別できるが、現在のASDモデルはこの対応関係を確立することが困難であり、音声と唇の動きが非同期になっている場合、非発話状態を誤検出する傾向がある。この課題を解決するため、本研究では「ロバスト性を向上させる唇ランドマーク補助型スピーカー検出(Lip landmark Assisted Speaker dEtection for Robustness: LASER)」を提案する。従来のモデルが顔フレームにのみ依存するのに対し、LASERは訓練段階で唇の動きに明示的に注目する。具体的には、顔トラックを入力として、軽量な検出器を用いてフレームレベルの視覚特徴と唇の2次元座標を抽出する。これらの座標は、唇の位置に関する空間的・構造的情報を含む高密度の特徴マップに符号化される。また、低解像度や遮蔽、極端な視角など困難な条件下ではランドマーク検出器が失敗する可能性があることを踏まえ、唇に依存する特徴と顔のみに依存する特徴からの予測を整合させるための補助的一貫性損失(auxiliary consistency loss)を導入することで、唇データが欠損した場合でも信頼性の高い性能を維持できるようにしている。複数のデータセットにおける広範な実験の結果、LASERは最先端モデルを上回る性能を発揮し、特に音声と映像が非同期な状況下でも優れたロバスト性を示した。これは、実世界の動画環境における実用性を裏付けている。コードは以下のURLから公開されている:\url{https://github.com/plnguyen2908/LASER_ASD}。

LASER:ロバスト性を向上させるためのリップランドマーク補助型スピーカ検出 | 最新論文 | HyperAI超神経