17日前

UniverSLU：自然言語指示を用いた多様なタスクにおける汎用音声言語理解

Siddhant Arora, Hayato Futami, Jee-weon Jung, Yifan Peng, Roshan Sharma, Yosuke Kashiwagi, Emiru Tsunoo, Karen Livescu, Shinji Watanabe

論文の詳細を見る

要約

最近の研究では、マルチタスク機能を備えた大規模言語モデルが活用されており、自然言語によるプロンプトによってモデルの振る舞いを誘導することで、特定タスク向けモデルを上回る性能を達成している。こうした動機から、我々は「一つのモデルでさまざまな音声言語理解（SLU）タスクを統合的に実行できるか」という問いを提起する。まず、事前学習済みの自動音声認識（ASR）モデルを、単一トークンによるタスク指定子を用いて他のタスクに適応させるアプローチを検討する。さらに、インストラクションチューニング（instruction tuning）——すなわち、タスクを自然言語による指示で記述し、その後にラベル選択肢のリストを提示する形でのファインチューニング——により、このアプローチを強化する。この手法により、推論時に既知のタスクに対して新たなタスク記述に対しても一般化が可能となり、ユーザーインターフェースの利便性が向上する。本研究では、17のデータセットおよび9の言語にまたがる12種類の音声分類およびシーケンス生成タスクに対し、単一のマルチタスク学習モデル「UniverSLU」の有効性を実証した。多数のタスクにおいて、UniverSLUは競争力のある性能を達成しており、場合によっては特定タスク向けモデルを上回ることも確認された。さらに、ゼロショット能力を評価した結果、既知のタスクタイプに関して、新しいデータセットや言語に対してもモデルが良好に一般化することが明らかになった。