HyperAIHyperAI

Command Palette

Search for a command to run...

自己教師あり学習を用いたマルチタスク音声活性化フレームワーク

Shehzeen Hussain Van Nguyen Shuhua Zhang Erik Visser

概要

wav2vec 2.0 をはじめとする自己教師学習手法は、ラベルなし・音声変換なしの音声データから音声表現を学習する点で有望な結果を示しており、音声認識に有用な表現を獲得できることが明らかになっている。これらの表現は特定のタスクに依存しない教師信号を用いて学習されるため、話者認証やキーワード検出、感情分類など、他の音声起動タスクにも応用可能である。本研究では、事前に学習された wav2vec 2.0 モデルをさまざまな音声起動タスクに適応するための汎用フレームワークを提案する。具体的には、wav2vec 2.0 の文脈化された音声表現を処理する下流ネットワークアーキテクチャを設計し、特定のタスクに適した表現に変換する。さらに、共有されたTransformerバックボーンを用いて複数の音声起動タスクを同時に最適化することで、マルチタスク学習を実現するフレームワークの拡張も行う。本研究で提案する単タスクおよびマルチタスクの両フレームワークは、話者認証およびキーワード検出のベンチマークにおいて、最先端の性能を達成した。特に、VoxCeleb2 で学習したモデルは VoxCeleb1 テストセットで 1.98% のEER(Equal Error Rate)を達成し、VoxCeleb1 で学習したモデルは 3.15% のEERを記録した。また、Google Speech Commands v1.0 キーワード検出データセットでは、98.23% の精度を達成した。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています