Command Palette
Search for a command to run...

Résumé
Les avancées récentes dans les modèles de raisonnement ont démontré un succès remarquable dans les domaines du texte et de la vision grâce à une réflexion prolongée en chaîne de pensée (chain-of-thought). Toutefois, un phénomène troublant persiste dans les modèles linguistiques audio : ils se comportent systématiquement mieux avec une réflexion minimale ou nulle, soulevant une question fondamentale — les systèmes audio peuvent-ils véritablement bénéficier d’un raisonnement réfléchi ? Nous introduisons Step-Audio-R1, le premier modèle de raisonnement audio à réussir à débloquer efficacement les capacités de raisonnement dans le domaine audio. Grâce à notre cadre proposé, la Distillation du Raisonnement Fondé sur la Modalité (MGRD), Step-Audio-R1 apprend à générer des chaînes de raisonnement pertinentes pour l’audio, véritablement ancrées dans les caractéristiques acoustiques, plutôt que de produire des réflexions fantaisistes et déconnectées. Notre modèle montre des capacités solides de raisonnement audio, dépassant Gemini 2.5 Pro et atteignant des performances comparables aux meilleures solutions actuelles, telles que Gemini 3 Pro, sur des benchmarks complets couvrant la compréhension et le raisonnement audio dans les domaines de la parole, des sons environnementaux et de la musique. Ces résultats démontrent que le raisonnement est une capacité transférable entre modalités lorsqu’elle est adéquatement ancrée, transformant ainsi la réflexion prolongée d’un fardeau en un atout puissant pour l’intelligence audio. En établissant le premier modèle de raisonnement audio réussit, Step-Audio-R1 ouvre de nouvelles voies vers la construction de systèmes de raisonnement véritablement multimodaux capables de penser de manière profonde à travers toutes les modalités sensorielles.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.