HyperAIHyperAI

Command Palette

Search for a command to run...

TalkNCE: 話者認識を改善するための話者意識的なコントラスティブ学習

Chaeyoung Jung extsuperscript1* Suyeon Lee extsuperscript1* Kihyun Nam extsuperscript1 Kyeongha Rho extsuperscript1 You Jin Kim extsuperscript2 Youngjoon Jang extsuperscript1 Joon Son Chung extsuperscript1

概要

本研究の目的はアクティブ・スピーカー検出(Active Speaker Detection: ASD)であり、これはビデオフレームの連続中に人物が話しているかどうかを判定するタスクです。これまでの研究では、ネットワークアーキテクチャの探索に焦点を当ててきましたが、効果的な表現の学習についてはあまり研究されていませんでした。本研究では、新たな話者意識型コントラスティブ損失であるTalkNCEを提案します。この損失関数は、画面上で実際に人物が話している部分のみに適用されます。これにより、音声と顔の動きの自然な対応を通じてモデルが効果的な表現を学習することを促進します。当社の損失関数は、追加の監督や訓練データなしで既存のASDモデルの訓練目標と共に最適化することができます。実験結果は、当社の損失関数が既存のASDフレームワークに容易に統合でき、その性能を向上させることを示しています。当社的方法はAVA-ActiveSpeakerおよびASWデータセットにおいて最先端の性能を達成しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています