7ヶ月前

アプローチ／フレームワーク

オーディオ

マルチモーダル

Boyong Wu Chao Yan Chen Hu Cheng Yi Chengli Feng Fei Tian Feiyu Shen Gang Yu Haoyang Zhang Jingbei Li

概要

本論文では、産業レベルの音声理解および音声会話に特化したエンドツーエンドのマルチモーダル大規模言語モデルであるStep-Audio~2を紹介する。Step-Audio 2は、潜在的音声エンコーダーと、推論を重視した強化学習（Reinforcement Learning: RL）を統合することで、自動音声認識（Automatic Speech Recognition: ASR）および音声理解において優れた性能を達成している。真のエンドツーエンド音声会話を実現するため、Step-Audio 2は言語モデルに離散的な音声トークンの生成を組み込み、発話スタイルや感情などのパラリングスティック情報に対する反応性を大幅に向上させている。現実世界のデータに含まれる豊富なテキスト情報および音響知識を効果的に活用するため、Step-Audio 2は検索補強生成（Retrieval-Augmented Generation: RAG）を統合しており、 hallucination（幻覚）を抑制するための外部ツール（例: ウェブ検索）の呼び出しや、トーンの切り替えを可能にする音声検索機能を備えている。何百万時間もの音声および音データをもとに訓練されたStep-Audio 2は、多様な会話シナリオにおいて知能と表現力を提供する。評価結果から、Step-Audio 2は他のオープンソースおよび商用ソリューションと比較して、さまざまな音声理解および会話ベンチマークで最先端の性能を示している。詳細については、https://github.com/stepfun-ai/Step-Audio2 を参照のこと。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

7ヶ月前

アプローチ／フレームワーク

オーディオ

マルチモーダル

Boyong Wu Chao Yan Chen Hu Cheng Yi Chengli Feng Fei Tian Feiyu Shen Gang Yu Haoyang Zhang Jingbei Li

概要

本論文では、産業レベルの音声理解および音声会話に特化したエンドツーエンドのマルチモーダル大規模言語モデルであるStep-Audio~2を紹介する。Step-Audio 2は、潜在的音声エンコーダーと、推論を重視した強化学習（Reinforcement Learning: RL）を統合することで、自動音声認識（Automatic Speech Recognition: ASR）および音声理解において優れた性能を達成している。真のエンドツーエンド音声会話を実現するため、Step-Audio 2は言語モデルに離散的な音声トークンの生成を組み込み、発話スタイルや感情などのパラリングスティック情報に対する反応性を大幅に向上させている。現実世界のデータに含まれる豊富なテキスト情報および音響知識を効果的に活用するため、Step-Audio 2は検索補強生成（Retrieval-Augmented Generation: RAG）を統合しており、 hallucination（幻覚）を抑制するための外部ツール（例: ウェブ検索）の呼び出しや、トーンの切り替えを可能にする音声検索機能を備えている。何百万時間もの音声および音データをもとに訓練されたStep-Audio 2は、多様な会話シナリオにおいて知能と表現力を提供する。評価結果から、Step-Audio 2は他のオープンソースおよび商用ソリューションと比較して、さまざまな音声理解および会話ベンチマークで最先端の性能を示している。詳細については、https://github.com/stepfun-ai/Step-Audio2 を参照のこと。

ソースPDF コードを表示

AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助

すぐに使える GPU

最適な料金体系

開始する料金を見る

HyperAI Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています