HyperAI
Back to Headlines

Étudiants de Tsinghua, Nés après 2000, Développent HRM : Un Transformer de 27 Millions de Paramètres Battant O3 et Claude

il y a 3 jours

Des étudiants de la génération 00, issus de Tsinghua University, ont réussi à améliorer significativement l'efficacité des modèles Transformer grâce à leur invention, l'HRM (Hierarchical Residual Matrix). Ce modèle, doté de seulement 27 millions de paramètres, a surpassé des systèmes beaucoup plus complexes comme o3 et Claude, ce qui souligne son potentiel dans divers domaines d'application technologique. L'optimisation des ressources de calcul par l'HRM L'HRM offre une importante efficacité en termes de ressources de calcul, ce qui lui permet de surpasser les Transformers traditionnels. Comme ces derniers utilisent généralement des architectures de réseau neuronal en boucle pour leurs processus d'entraînement, ils peuvent être sujets à des problèmes de convergence et dépendent fortement de méthodes de propagation inverse dans le temps, ce qui limite leur profondeur calculatoire effective. L'HRM, en revanche, résout ces défis de deux manières : il s'adapte mieux aux exigences de calcul actuelles et offre une plus grande flexibilité dans le processus d'entraînement. Tout en conservant une approche intuitive pour le flux de tokens, l'HRM utilise desmécanismes de supervision basés sur des signaux denses plutôt que sur des signaux épars. Cette méthode lui permet de fonctionner de manière plus fluide et efficace, sans avoir besoin de grands incitatifs techniques. De plus, l'HRM peut s'autoréguler naturellement dans un espace latent continu, ajustant dynamiquement la distribution des ressources de calcul en fonction de la complexité de la tâche, ce qui lui confère une robustesse et une adaptabilité accrues. Le rôle de l'apprentissage renforcé dans l'HRM L'HRM intègre également des techniques d'apprentissage renforcé, qui ont récemment gagné en popularité dans le domaine de l'intelligence artificielle. Ces techniques permettent au modèle de libérer certaines capacités de pensée latente, ce qui n'est pas possible avec les chaines de pensée traditionnelles. Cependant, l'apprentissage renforcé combiné avec les chaînes de pensée peut présenter des problèmes de stabilité et d'efficacité data.Pour répondre à ces défis, l'équipe a mis en place des mécanismes de surveillance de la pente, qui fournissent des signaux de rétroaction précis et stables, sans nécessiter de grandes incitations externes. Cette innovation permet ainsi à l'HRM de fonctionner efficacement dans des environnements où les ressources de calcul sont limitées, tout en offrant des performances similaires ou supérieures à celles des modèles plus volumineux. Les résultats de cette étude soulignent également le potentiel de l'HRM pour améliorer les systèmes d'entraînement et de prédiction en les rendant plus économiques en termes de ressources et plus adéquats aux besoins réels des applications. Conclusion Les avancées réalisées par ces jeunes chercheurs de Tsinghua University avec l'HRM représentent une percée significative dans l'optimisation des modèles Transformer. Grâce à une architecture plus intelligente et une gestion efficace des ressources, l'HRM est capable de performances exceptionnelles même avec un nombre de paramètres relativement faible. Ces résultats ouvrent la voie à des applications plus larges et plus accessibles de l'IA, notamment dans des domaines où les contraintes de calcul sont importantes. Pour plus d'informations, vous pouvez consulter les références suivantes : - https://scholar.google.com/citations?user=-D0EgMIAAAAJ&hl=en - https://www.linkedin.com/in/guan-wang-447402338/ - https://www.linkedin.com/in/austinzhenguwo/ - https://arxiv.org/pdf/2506.21734.pdf

Related Links