2ヶ月前

TalkNCE: 話者認識を改善するための話者意識的なコントラスティブ学習

Jung, Chaeyoung ; Lee, Suyeon ; Nam, Kihyun ; Rho, Kyeongha ; Kim, You Jin ; Jang, Youngjoon ; Chung, Joon Son
TalkNCE: 話者認識を改善するための話者意識的なコントラスティブ学習
要約

本研究の目的はアクティブ・スピーカー検出(Active Speaker Detection: ASD)であり、これはビデオフレームの連続中に人物が話しているかどうかを判定するタスクです。これまでの研究では、ネットワークアーキテクチャの探索に焦点を当ててきましたが、効果的な表現の学習についてはあまり研究されていませんでした。本研究では、新たな話者意識型コントラスティブ損失であるTalkNCEを提案します。この損失関数は、画面上で実際に人物が話している部分のみに適用されます。これにより、音声と顔の動きの自然な対応を通じてモデルが効果的な表現を学習することを促進します。当社の損失関数は、追加の監督や訓練データなしで既存のASDモデルの訓練目標と共に最適化することができます。実験結果は、当社の損失関数が既存のASDフレームワークに容易に統合でき、その性能を向上させることを示しています。当社的方法はAVA-ActiveSpeakerおよびASWデータセットにおいて最先端の性能を達成しています。

TalkNCE: 話者認識を改善するための話者意識的なコントラスティブ学習 | 最新論文 | HyperAI超神経