16日前
ESPnet-SPK:再現可能なレシピ、自己教師付きフロントエンド、およびオフザシェルモデルを備えたフルパイプラインスピーカーエンベッディングツールキット
Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya Higuchi, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe

要約
本稿では、話者埋め込み抽出器の学習を目的として設計されたESPnet-SPKというツールキットを紹介する。まず、話者認識分野の研究者らがモデルを容易に構築できるオープンソースプラットフォームを提供する。x-vectorから最近のSKA-TDNNに至るまで、複数のモデルを用意しており、モジュール化されたアーキテクチャ設計により、バリエーションの開発が容易である。また、既存のモデルを他の研究分野と連携させることで、広範な研究コミュニティが最先端の埋め込み抽出器を容易に統合できるようにすることを目指している。事前学習済みの埋め込み抽出器は即時利用可能であり、本ツールキットの汎用性を、2つのタスクへの統合事例を通じて示している。さらに、多様な自己教師学習特徴量との統合を実現するという目的も持つ。WavLM-LargeとECAPA-TDNNを用いた再現可能なレシピを公開しており、Vox1-O評価プロトコルにおいて等誤差率(EER)0.39%を達成している。