HyperAI

概要

本論文の目的は、ノイジーで制約のない条件下での話者認識を行うことです。私たちは以下の2つの重要な貢献を行います。第一に、オープンソースメディアから収集した大規模な音声・映像話者認識データセットを紹介します。完全自動化されたパイプラインを使用して、VoxCeleb2というデータセットを作成しました。これは6,000人以上の話者から100万件以上の発話を含んでおり、公開されている他の話者認識データセットよりも数倍大きい规模です。第二に、さまざまな条件下で音声からアイデンティティを効果的に認識できる畳み込みニューラルネットワーク（CNN）モデルと学習戦略を開発し、比較しました。VoxCeleb2データセットで学習させたモデルは、ベンチマークデータセットにおいて従来の研究を大幅に上回る性能を示しています。

概要

Joon Son Chung Arsha Nagrani Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Joon Son Chung Arsha Nagrani Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Joon Son Chung Arsha Nagrani Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

VoxCeleb2: 深層話者認識

Joon Son Chung Arsha Nagrani Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

VoxCeleb2: 深層話者認識

Joon Son Chung Arsha Nagrani Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters

Command Palette

VoxCeleb2: 深層話者認識

Joon Son Chung Arsha Nagrani Andrew Zisserman

概要

AIでAIを構築

HyperAI Newsletters