HyperAIHyperAI

Command Palette

Search for a command to run...

VoxCeleb2: 深層話者認識

Joon Son Chung Arsha Nagrani Andrew Zisserman

概要

本論文の目的は、ノイジーで制約のない条件下での話者認識を行うことです。私たちは以下の2つの重要な貢献を行います。第一に、オープンソースメディアから収集した大規模な音声・映像話者認識データセットを紹介します。完全自動化されたパイプラインを使用して、VoxCeleb2というデータセットを作成しました。これは6,000人以上の話者から100万件以上の発話を含んでおり、公開されている他の話者認識データセットよりも数倍大きい规模です。第二に、さまざまな条件下で音声からアイデンティティを効果的に認識できる畳み込みニューラルネットワーク(CNN)モデルと学習戦略を開発し、比較しました。VoxCeleb2データセットで学習させたモデルは、ベンチマークデータセットにおいて従来の研究を大幅に上回る性能を示しています。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています