Command Palette
Search for a command to run...
ステップオーディオ2 技術報告書
ステップオーディオ2 技術報告書
概要
本論文では、産業レベルの音声理解および音声会話に特化したエンドツーエンドのマルチモーダル大規模言語モデルであるStep-Audio~2を紹介する。Step-Audio 2は、潜在的音声エンコーダーと、推論を重視した強化学習(Reinforcement Learning: RL)を統合することで、自動音声認識(Automatic Speech Recognition: ASR)および音声理解において優れた性能を達成している。真のエンドツーエンド音声会話を実現するため、Step-Audio 2は言語モデルに離散的な音声トークンの生成を組み込み、発話スタイルや感情などのパラリングスティック情報に対する反応性を大幅に向上させている。現実世界のデータに含まれる豊富なテキスト情報および音響知識を効果的に活用するため、Step-Audio 2は検索補強生成(Retrieval-Augmented Generation: RAG)を統合しており、 hallucination(幻覚)を抑制するための外部ツール(例: ウェブ検索)の呼び出しや、トーンの切り替えを可能にする音声検索機能を備えている。何百万時間もの音声および音データをもとに訓練されたStep-Audio 2は、多様な会話シナリオにおいて知能と表現力を提供する。評価結果から、Step-Audio 2は他のオープンソースおよび商用ソリューションと比較して、さまざまな音声理解および会話ベンチマークで最先端の性能を示している。詳細については、https://github.com/stepfun-ai/Step-Audio2 を参照のこと。