2ヶ月前
MAAS: 複数モーダル割り当てによるアクティブ話者検出
León-Alcázar, Juan ; Heilbron, Fabian Caba ; Thabet, Ali ; Ghanem, Bernard

要約
アクティブスピーカー検出には、マルチモーダルな手がかりの堅固な統合が必要です。個々のモーダリティは解を近似することができますが、正確な予測は音響と視覚特徴を明示的に融合し、それらの時間的な進行をモデル化することによってのみ達成できます。問題の本質的なマルチモーダル性にもかかわらず、現行の手法は依然として個々の話者の短期的な音声視覚特徴をモデル化および融合することに焦点を当てており、しばしばフレームレベルで行われています。本論文では、この問題のマルチモーダル性に直接対処し、シーン内の潜在的な話者から独立した視覚特徴を事前に検出された発話イベントに割り当てるための簡潔な戦略を提案します。実験結果は、単一フレームから構築された小さなグラフデータ構造が瞬間的な音声視覚割当て問題を近似できることを示しています。さらに、この初期グラフの時間的拡張により、AVA-ActiveSpeaker データセットにおいて mAP 88.8% の新しい最先端性能が達成されました。