il y a 3 mois

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao

Résumé

Les avancées récentes dans les modèles de raisonnement ont démontré un succès remarquable dans les domaines du texte et de la vision grâce à une réflexion prolongée en chaîne de pensée (chain-of-thought). Toutefois, un phénomène troublant persiste dans les modèles linguistiques audio : ils se comportent systématiquement mieux avec une réflexion minimale ou nulle, soulevant une question fondamentale — les systèmes audio peuvent-ils véritablement bénéficier d’un raisonnement réfléchi ? Nous introduisons Step-Audio-R1, le premier modèle de raisonnement audio à réussir à débloquer efficacement les capacités de raisonnement dans le domaine audio. Grâce à notre cadre proposé, la Distillation du Raisonnement Fondé sur la Modalité (MGRD), Step-Audio-R1 apprend à générer des chaînes de raisonnement pertinentes pour l’audio, véritablement ancrées dans les caractéristiques acoustiques, plutôt que de produire des réflexions fantaisistes et déconnectées. Notre modèle montre des capacités solides de raisonnement audio, dépassant Gemini 2.5 Pro et atteignant des performances comparables aux meilleures solutions actuelles, telles que Gemini 3 Pro, sur des benchmarks complets couvrant la compréhension et le raisonnement audio dans les domaines de la parole, des sons environnementaux et de la musique. Ces résultats démontrent que le raisonnement est une capacité transférable entre modalités lorsqu’elle est adéquatement ancrée, transformant ainsi la réflexion prolongée d’un fardeau en un atout puissant pour l’intelligence audio. En établissant le premier modèle de raisonnement audio réussit, Step-Audio-R1 ouvre de nouvelles voies vers la construction de systèmes de raisonnement véritablement multimodaux capables de penser de manière profonde à travers toutes les modalités sensorielles.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 3 mois

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Rapport technique Step-Audio-R1

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique Step-Audio-R1

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Rapport technique Step-Audio-R1

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao7 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao

Fei Tian Xiangyu Tony Zhang Yuxin Zhang Haoyang Zhang Yuxin Li Daijiao Liu Yayue Deng Donghang Wu Jun Chen Liang Zhao