2ヶ月前

VoxCeleb2: 深層話者認識

Joon Son Chung; Arsha Nagrani; Andrew Zisserman
VoxCeleb2: 深層話者認識
要約

本論文の目的は、ノイジーで制約のない条件下での話者認識を行うことです。私たちは以下の2つの重要な貢献を行います。第一に、オープンソースメディアから収集した大規模な音声・映像話者認識データセットを紹介します。完全自動化されたパイプラインを使用して、VoxCeleb2というデータセットを作成しました。これは6,000人以上の話者から100万件以上の発話を含んでおり、公開されている他の話者認識データセットよりも数倍大きい规模です。第二に、さまざまな条件下で音声からアイデンティティを効果的に認識できる畳み込みニューラルネットワーク(CNN)モデルと学習戦略を開発し、比較しました。VoxCeleb2データセットで学習させたモデルは、ベンチマークデータセットにおいて従来の研究を大幅に上回る性能を示しています。