17日前

SpeechPrompt v2：音声分類タスクにおけるPrompt Tuning

Kai-Wei Chang, Yu-Kai Wang, Hua Shen, Iu-thing Kang, Wei-Cheng Tseng, Shang-Wen Li, Hung-yi Lee

要約

プロンプトチューニングは、事前学習済み言語モデル（LM）の出力を直接生成するように導くために、少数のパラメータを調整する技術である。近年、プロンプトチューニングは自然言語処理（NLP）および音声処理の分野において、メモリ使用量と計算効率の面で優れた性能を示している。これらの利点により、複数のタスクを統一的な枠組みで事前学習LMに提供する手法として、プロンプトチューニングの可能性が浮き彫りになった。音声処理分野では、SpeechPromptは少数の音声分類タスクにおいて高いパラメータ効率と競争力のある性能を示している。しかし、SpeechPromptが多数のタスクを効果的に処理できるかどうかは未解決の課題であった。本研究では、多言語およびプロソディ関連の多様な音声分類タスクをカバーできるプロンプトチューニングフレームワークであるSpeechPrompt v2を提案する。実験の結果、SpeechPrompt v2は、統一的なフレームワーク内で0.15M未満の学習可能なパラメータで、従来の手法と同等の性能を達成した。