2ヶ月前

Qwen-Audio: 大規模統合音声言語モデルを用いた普遍的な音声理解の進展

Chu, Yunfei ; Xu, Jin ; Zhou, Xiaohuan ; Yang, Qian ; Zhang, Shiliang ; Yan, Zhijie ; Zhou, Chang ; Zhou, Jingren
Qwen-Audio: 大規模統合音声言語モデルを用いた普遍的な音声理解の進展
要約

最近、人間との音声インタラクションを可能にする命令文対応のオーディオ言語モデルが広い注目を集めています。しかし、多様な音声タイプやタスクに対応可能な事前学習済みのオーディオモデルの欠如により、この分野での進展が阻まれてきました。その結果、既存の多くの研究では、限られた範囲のインタラクション機能しかサポートできていません。本論文では、Qwen-Audio モデルを開発し、この制約を克服するために、30以上のタスクと様々な音声タイプ(人間の会話、自然音、音楽、歌など)をカバーする大規模なオーディオ言語事前学習を行いました。これにより普遍的な音声理解能力を促進します。ただし、すべてのタスクとデータセットを直接共同で学習すると、異なるデータセットに付随するテキストラベルがタスクの焦点、言語、アノテーションの粒度、およびテキスト構造の違いにより相当な変動を示すため、干渉問題が生じる可能性があります。このような一対多の干渉を克服するために、我々は階層的なタグシーケンスに基づく条件付けを行い、共有タグと特定タグを通じて知識共有を促進し干渉を回避するマルチタスク学習フレームワークを慎重に設計しました。特に注目に値するのは、Qwen-Audio が特定のタスクに対する微調整なしで多様なベンチマークタスクにおいて優れた性能を達成しており、同種のモデルを超えることです。Qwen-Audio の能力に基づいてさらに開発された Qwen-Audio-Chat は、様々な音声入力とテキスト入力を処理できることからマルチターン対話を可能にし、音声を中心とした様々なシナリオをサポートします。