8ヶ月前

マルチモーダル

オーディオ

マルチモーダル

コンピュータビジョン

Yuke Lin Ming Cheng Fulin Zhang Yingying Gao Shilei Zhang Ming Li

概要

本論文では、大規模な音声視覚的な話者認識データセットであるVoxBlink2を提供します。このデータセットには、11万以上の話者から収集された約1,000万の発話とビデオが含まれています。VoxBlink2は、最適化されたデータ収集パイプラインにより、より広範な話者とシナリオをカバーしており、VoxBlinkデータセットに対する大幅な拡張となっています。その後、学習戦略、データ量、モデルの複雑さが話者認証に与える影響を探り、最終的にVoxCeleb1-Oテストセット上で単一モデルにおける最先端の等誤り率（EER）を0.170%、最小DCFを0.006%として確立しました。このような優れた結果は、我々が新たな挑戦的な観点から話者認識を探究する動機となっています。我々はオープンセットの話者識別タスクを提起し、これはプローブ発話を既知のギャラリースピーカーと照合するか、未知のクエリーとして分類することを目指しています。このタスクに関連して、具体的なベンチマークと評価プロトコルを設計しました。データおよびモデル資源はhttp://voxblink2.github.ioで入手できます。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

8ヶ月前

マルチモーダル

オーディオ

マルチモーダル

コンピュータビジョン

Yuke Lin Ming Cheng Fulin Zhang Yingying Gao Shilei Zhang Ming Li

概要

本論文では、大規模な音声視覚的な話者認識データセットであるVoxBlink2を提供します。このデータセットには、11万以上の話者から収集された約1,000万の発話とビデオが含まれています。VoxBlink2は、最適化されたデータ収集パイプラインにより、より広範な話者とシナリオをカバーしており、VoxBlinkデータセットに対する大幅な拡張となっています。その後、学習戦略、データ量、モデルの複雑さが話者認証に与える影響を探り、最終的にVoxCeleb1-Oテストセット上で単一モデルにおける最先端の等誤り率（EER）を0.170%、最小DCFを0.006%として確立しました。このような優れた結果は、我々が新たな挑戦的な観点から話者認識を探究する動機となっています。我々はオープンセットの話者識別タスクを提起し、これはプローブ発話を既知のギャラリースピーカーと照合するか、未知のクエリーとして分類することを目指しています。このタスクに関連して、具体的なベンチマークと評価プロトコルを設計しました。データおよびモデル資源はhttp://voxblink2.github.ioで入手できます。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

VoxBlink2: 10万人以上の話者認識コーパスとオープンセットの話者識別ベンチマーク | 記事 | HyperAI超神経