6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

概要

本稿では、話者埋め込み抽出器の学習を目的として設計されたESPnet-SPKというツールキットを紹介する。まず、話者認識分野の研究者らがモデルを容易に構築できるオープンソースプラットフォームを提供する。x-vectorから最近のSKA-TDNNに至るまで、複数のモデルを用意しており、モジュール化されたアーキテクチャ設計により、バリエーションの開発が容易である。また、既存のモデルを他の研究分野と連携させることで、広範な研究コミュニティが最先端の埋め込み抽出器を容易に統合できるようにすることを目指している。事前学習済みの埋め込み抽出器は即時利用可能であり、本ツールキットの汎用性を、2つのタスクへの統合事例を通じて示している。さらに、多様な自己教師学習特徴量との統合を実現するという目的も持つ。WavLM-LargeとECAPA-TDNNを用いた再現可能なレシピを公開しており、Vox1-O評価プロトコルにおいて等誤差率（EER）0.39%を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

6ヶ月前

音声および音声処理

マルチタスク学習

アプローチ／フレームワーク

オーディオ

Jee-weon Jung Wangyou Zhang Jiatong Shi Zakaria Aldeneh Takuya Higuchi Barry-John Theobald Ahmed Hussen Abdelaziz Shinji Watanabe

概要

本稿では、話者埋め込み抽出器の学習を目的として設計されたESPnet-SPKというツールキットを紹介する。まず、話者認識分野の研究者らがモデルを容易に構築できるオープンソースプラットフォームを提供する。x-vectorから最近のSKA-TDNNに至るまで、複数のモデルを用意しており、モジュール化されたアーキテクチャ設計により、バリエーションの開発が容易である。また、既存のモデルを他の研究分野と連携させることで、広範な研究コミュニティが最先端の埋め込み抽出器を容易に統合できるようにすることを目指している。事前学習済みの埋め込み抽出器は即時利用可能であり、本ツールキットの汎用性を、2つのタスクへの統合事例を通じて示している。さらに、多様な自己教師学習特徴量との統合を実現するという目的も持つ。WavLM-LargeとECAPA-TDNNを用いた再現可能なレシピを公開しており、Vox1-O評価プロトコルにおいて等誤差率（EER）0.39%を達成している。

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

ESPnet-SPK：再現可能なレシピ、自己教師付きフロントエンド、およびオフザシェルモデルを備えたフルパイプラインスピーカーエンベッディングツールキット | 記事 | HyperAI超神経