17日前
タイマーとその類:数値を用いた spoken language understanding に関する実用的なベンチマーク
Loren Lugosch, Piyush Papreja, Mirco Ravanelli, Abdelwahab Heba, Titouan Parcollet

要約
本稿では、数字を含む日常的な音声コントロール利用事例に特化した、新たなオープンソース音声コマンドデータセット「Timers and Such」を紹介する。本データセットが埋める、既存の音声言語理解データセットにおけるギャップについて説明し、データセットの設計および構築プロセスを詳述する。さらに、複数のASRベースおよびエンドツーエンド型のベースラインモデルを用いた実験も実施した。実験に使用したコードは、SpeechBrainツールキットの一部として公開されている。