2ヶ月前

コンテキストにおける能動的な話者

Alcazar, Juan Leon ; Heilbron, Fabian Caba ; Mai, Long ; Perazzi, Federico ; Lee, Joon-Young ; Arbelaez, Pablo ; Ghanem, Bernard
コンテキストにおける能動的な話者
要約

現在のアクティブスピーカー検出方法は、単一の話者の短期的な音声視覚情報をモデル化することに焦点を当てています。この戦略は単一話者シナリオに対処するには十分ですが、複数の候補話者の中から誰が話しているかを正確に識別するタスクでは、その精度が低下します。本論文では、長期的な時間軸上で複数の話者間の関係をモデル化する新しい表現である「アクティブスピーカーコンテキスト」を紹介します。我々のアクティブスピーカーコンテキストは、構造化された音声視覚観測値の集合体からペアワイズおよび時間的な関係を学習することを目的として設計されています。実験結果は、構造化された特徴量集合体がすでにアクティブスピーカー検出性能に寄与することを示しています。さらに、提案したアクティブスピーカーコンテキストがAVA-ActiveSpeakerデータセットにおいて最先端の性能を向上させ、mAP(平均精度)87.1% を達成することが確認されました。我々はアブレーションスタディを行い、この結果が長期的な多話者分析による直接的な帰結であることを検証しました。

コンテキストにおける能動的な話者 | 最新論文 | HyperAI超神経