SLUE:自然音声における話音理解評価のための新たなベンチマークタスク

音声処理分野の進展は、共有されたデータセットおよびベンチマークの利用によって促進されてきた。歴史的に、こうしたリソースは主に自動音声認識(ASR)、話者識別、あるいはその他の低レベルなタスクに焦点を当てていた。一方で、エンドツーエンドモデルを用いた高レベルな話者言語理解タスクへの関心は高まっており、そのようなタスクに適したアノテーション付きデータセットは依然として少ないのが現状である。同時に、最近の研究では、汎用的な表現を事前学習し、少量のラベル付きデータを用いて微調整することで複数のタスクに適用可能なモデルを構築する可能性が示されている。本研究では、高レベルな話者言語理解タスクを評価するためのベンチマークタスク群である「Spoken Language Understanding Evaluation(SLUE)」の構築を提案する。このベンチマークは、限定サイズのラベル付き学習データセットとそれに対応する評価データセットから構成される。このリソースにより、研究コミュニティは進展を追跡し、高レベルなタスクにおける事前学習済み表現の有効性を評価し、パイプライン型アプローチとエンドツーエンドアプローチの利点に関する未解決課題を検討することが可能となる。本稿では、SLUEベンチマークの第一段階として、固有表現抽出、センチメント分析、および対応するデータセットにおけるASRを含むタスクを提示する。対象とする音声は、読み上げや合成されたものではなく、自然に生成されたものに限定しており、自由に利用可能なデータセットを採用している。また、VoxCelebおよびVoxPopuliデータセットのサブセットに対して、新たに作成されたトランスクリプトおよびアノテーション、ベースラインモデルのための評価指標と結果、およびベースラインの再現および新規モデルの評価を可能にするオープンソースツールキットを提供する。