概要

近年、推論モデルの進展により、テキストおよび視覚領域において、拡張されたチェーン・オブ・シンキング（Chain-of-Thought）による段階的推論によって顕著な成果が得られている。しかし、音声言語モデルにおいては、一貫して最小限または一切の推論を用いた場合に優れた性能を示すという奇妙な現象が依然として存在する。これにより根本的な疑問が生じる：音声知能は本当に意図的な思考から恩恵を受けることができるのだろうか？本研究では、音声領域における推論能力を初めて成功裏に開拓した「Step-Audio-R1」を提案する。我々が提唱する「モダリティ接地型推論蒸留（Modality-Grounded Reasoning Distillation: MGRD）」フレームワークにより、Step-Audio-R1は音声特徴に真正に根ざした、音声に適した推論チェーンを生成する能力を学習する。これは、音声の物理的特性から離れた架空の推論を生成するのではなく、音響特徴に基づいた実質的な推論プロセスを実現するものである。本モデルは、スピーチ、環境音、音楽を含む多様な音声理解および推論ベンチマークにおいて、Gemini 2.5 Proを上回り、最先端のGemini 3 Proと同等の性能を達成した。これらの結果は、適切にモダリティに根ざした推論が、異なるモダリティ間で転移可能であることを示しており、拡張された段階的推論が音声知能においては負の要因から強力なアセットへと転換可能であることを実証している。Step-Audio-R1は、初めて成功裏に構築された音声推論モデルとして、すべての感覚モダリティにわたる深層的な思考を可能にする真のマルチモーダル推論システムの構築へと新たな道を開くものである。

ソースPDF