2ヶ月前

VoxBlink2: 10万人以上の話者認識コーパスとオープンセットの話者識別ベンチマーク

Yuke Lin; Ming Cheng; Fulin Zhang; Yingying Gao; Shilei Zhang; Ming Li
VoxBlink2: 10万人以上の話者認識コーパスとオープンセットの話者識別ベンチマーク
要約

本論文では、大規模な音声視覚的な話者認識データセットであるVoxBlink2を提供します。このデータセットには、11万以上の話者から収集された約1,000万の発話とビデオが含まれています。VoxBlink2は、最適化されたデータ収集パイプラインにより、より広範な話者とシナリオをカバーしており、VoxBlinkデータセットに対する大幅な拡張となっています。その後、学習戦略、データ量、モデルの複雑さが話者認証に与える影響を探り、最終的にVoxCeleb1-Oテストセット上で単一モデルにおける最先端の等誤り率(EER)を0.170%、最小DCFを0.006%として確立しました。このような優れた結果は、我々が新たな挑戦的な観点から話者認識を探究する動機となっています。我々はオープンセットの話者識別タスクを提起し、これはプローブ発話を既知のギャラリースピーカーと照合するか、未知のクエリーとして分類することを目指しています。このタスクに関連して、具体的なベンチマークと評価プロトコルを設計しました。データおよびモデル資源はhttp://voxblink2.github.ioで入手できます。

VoxBlink2: 10万人以上の話者認識コーパスとオープンセットの話者識別ベンチマーク | 最新論文 | HyperAI超神経