HyperAI超神経
6日前

OpenS2S: オープンソースのエンドツーエンド共感型大規模音声言語モデルの進化

Chen Wang, Tianyu Peng, Wen Yang, Yinan Bai, Guangfu Wang, Jun Lin, Lanpeng Jia, Lingxiang Wu, Jinqiao Wang, Chengqing Zong, Jiajun Zhang
OpenS2S: オープンソースのエンドツーエンド共感型大規模音声言語モデルの進化
要約

共感的な対話は、音声に副言語的要素が豊かに含まれていることを理解し、感情的かつ表現豊かな応答を生成する必要性から、人間と機械のコミュニケーションの重要な基盤となっています。しかし、最も強力な共感的なLSLM(大規模言語モデル)はますます閉鎖的になり、そのアーキテクチャ、データ、開発に関する重要な詳細が研究者にとって不明瞭になっています。透明性のあるLSLMおよび共感的行動に関する研究の重要性を考えると、私たちは完全オープンソースで透明性があり、エンドツーエンドのLSLMであるOpenS2Sを提案します。これは共感的な音声対話を可能にするために設計されています。 OpenS2Sは、私たちの共感的な音声認識モデルBLSP-Emoに基づいており、低遅延の音声生成を実現するためにストリーミング交互デコーディングアーキテクチャを採用しています。エンドツーエンドの学習を容易にするため、OpenS2Sには多様で高品質な共感的な音声対話を低コストで合成する自動データ構築パイプラインが組み込まれています。大規模言語モデルを使用して共感的なコンテンツを生成し、制御可能なテキスト読み上げシステムを使用して話者や感情の変動を導入することで、人的監督が最小限で豊かな副言語的多様性を持つスケーラブルな訓練コーパスを作成しています。 私たちは完全オープンソースのOpenS2Sモデル(データセット、モデル重み、事前学習コードおよび微調整コードを含む)を公開し、広範な研究コミュニティに力を与え、共感的な音声システムにおける革新を加速することを目指しています。プロジェクトウェブページはこのhttps URLからアクセスできます。