HyperAIHyperAI

Command Palette

Search for a command to run...

Les Prix Du Meilleur Article De NeurIPS 2025 Ont Été Annoncés ! Un Projet De Recherche Collaboratif Mené Par L’équipe De Qwen, L’université Tsinghua, L’université Stanford Et D’autres Institutions a Été sélectionné.

Featured Image

Le prix du meilleur article et le prix du deuxième meilleur article de NeurIPS 2025 ont été décernés à 7 articles novateurs, dont 4 meilleurs articles (dont un provenant du domaine des ensembles de données et des benchmarks) et 3 articles finalistes.

Ces sept articles mettent en lumière les dernières avancées dans la théorie des modèles de diffusion, l'apprentissage par renforcement auto-supervisé, les mécanismes d'attention dans les grands modèles de langage, les capacités de raisonnement des modèles de langage, la théorie de l'apprentissage en ligne, les lois d'échelle neuronales et les méthodes d'évaluation comparative de la diversité des modèles de langage.

4 meilleurs articles

1. Intelligence artificielle participative : l’homogénéité ouverte des modèles de langage (et ses extensions)

Titre : Esprit collectif artificiel : l’homogénéité ouverte des modèles de langage (et au-delà)

* Équipe de recherche :Université de Washington, Université Carnegie Mellon, Institut Allen pour l'intelligence artificielle, Lila Sciences, Université de Stanford

* Abstrait:Les grands modèles de langage peinent souvent à générer un contenu créatif diversifié et proche de celui de l'humain, ce qui soulève des inquiétudes quant à l'homogénéisation à long terme de la pensée humaine due à une exposition répétée à des productions similaires. Cependant, les méthodes actuelles permettant d'évaluer la diversité des productions des modèles de langage restent limitées, notamment en dehors de tâches spécifiques telles que la génération de nombres aléatoires ou de noms, ou au-delà de l'échantillonnage répété d'un même modèle.

Pour pallier cette lacune, nous présentons Infinity-Chat, un vaste ensemble de données contenant 26 000 requêtes utilisateur ouvertes, diverses et réelles, autorisant plusieurs réponses plausibles plutôt qu’une seule « bonne réponse ». Nous présentons également, pour la première fois, un système de classification complet pour décrire toutes les questions ouvertes soumises à un modèle de langage, comprenant six catégories principales (par exemple, la génération de contenu créatif, le brainstorming et l’idéation), chacune subdivisée en 17 sous-catégories.

Nous avons mené une étude à grande échelle sur l'effondrement des modèles de langage (ML) à l'aide de la plateforme Infinity-Chat, révélant un important effet de « mentalité de ruche artificielle » dans la génération de modèles de langage ouverts. Cet effet se manifeste par : (1) une répétabilité intra-modèle, c'est-à-dire que les modèles individuels génèrent systématiquement des réponses similaires ; et (2) une homogénéité inter-modèle, c'est-à-dire que différents modèles produisent des résultats remarquablement similaires. La plateforme Infinity-Chat comprend également 31 250 annotations humaines, couvrant les évaluations absolues et les préférences par paires, avec 25 annotations humaines indépendantes pour chaque exemple. Cela nous a permis d'étudier les préférences humaines collectives et individuelles pour les requêtes ouvertes. Nos résultats indiquent que, malgré une qualité globale considérable, les modèles de langage, les modèles de récompense et les évaluateurs de modèles de langage les plus performants ont montré une faible concordance avec les évaluations humaines pour la génération de modèles ayant suscité des préférences personnalisées de la part de différents annotateurs. Globalement, INFINITY-CHAT constitue la première ressource à grande échelle permettant d'étudier systématiquement les requêtes ouvertes sur les modèles de langage dans le monde réel, révélant des informations clés pour orienter les recherches futures et atténuer les risques à long terme pour la sécurité de l'IA posés par la mentalité grégaire de l'IA.

* Lien vers l'article :https://go.hyper.ai/DZga5

2. Application des mécanismes d'attention contrôlée dans les modèles de langage à grande échelle : non-linéarité, parcimonie et convergence sans attention

Titre : Attention contrôlée pour les grands modèles de langage : non-linéarité, parcimonie et absence de puits d’attention

* Équipe de recherche :Équipe Alibaba Qwen, Université d'Édimbourg, Université de Stanford, Massachusetts Institute of Technology, Université Tsinghua

* Abstrait:Les mécanismes de contrôle d'accès (ou gating) sont largement utilisés, des premiers modèles comme les LSTM et les réseaux Highway aux modèles d'espace d'état, aux mécanismes d'attention linéaire et aux mécanismes d'attention softmax plus récents. Cependant, la littérature existante étudie rarement les effets spécifiques de ces mécanismes. Cet article examine systématiquement différentes variantes du mécanisme d'attention softmax améliorées par le biais d'une série d'expériences exhaustives. Plus précisément, nous comparons de manière approfondie 30 variantes, dont 15 milliards de modèles Hybrid Expert (MoE) et 1,7 milliard de modèles denses, tous entraînés sur un ensemble de données de 3 500 milliards de tokens. Notre principal résultat est qu'une simple amélioration – l'application d'un contrôle d'accès sigmoïde spécifique à la tête après l'attention par produit scalaire à l'échelle (SDPA) – permet d'améliorer systématiquement les performances du modèle. De plus, cette amélioration renforce la stabilité de l'entraînement, accroît la tolérance du modèle aux variations du taux d'apprentissage et améliore son évolutivité. En comparant différents emplacements de contrôle et variantes de calcul, nous attribuons cette efficacité à deux facteurs clés : (1) l’introduction d’une non-linéarité dans le mappage de faible rang du mécanisme d’attention softmax, et (2) l’application de scores de contrôle parcimonieux pertinents pour la requête afin de moduler la sortie SDPA. Notamment, nous constatons que ce mécanisme de contrôle parcimonieux atténue les activations à grande échelle et les pièges attentionnels, et améliore les performances d’extrapolation à long contexte. Nous publions également le code et le modèle correspondants afin de faciliter les recherches futures. De plus, le contrôle de sortie SDPA le plus efficace a été appliqué au modèle Qwen3-Next.

* Adresse du papier :https://go.hyper.ai/iBANK

* Adresse Github :https://github.com/qiuzh20/gated_attention

3. Application des réseaux multicouches dans l'apprentissage par renforcement auto-supervisé : L'expansion profonde peut doter de nouveaux objectifs de la capacité de les atteindre.

Réseaux à 1000 couches pour l'apprentissage par renforcement auto-supervisé : l'augmentation de la profondeur peut permettre de nouvelles capacités d'atteinte des objectifs

* Équipe de recherche :Université de Princeton, Université de technologie de Varsovie

* Abstrait:Bien que l'apprentissage auto-supervisé ait permis des avancées majeures dans le traitement à grande échelle du langage et de la vision, des progrès similaires sont rares en apprentissage par renforcement (RL). Cet article étudie les éléments constitutifs de l'apprentissage par renforcement auto-supervisé qui améliorent considérablement l'évolutivité, la profondeur du réseau étant un facteur clé. La plupart des articles récents sur l'apprentissage par renforcement s'appuient sur des architectures peu profondes (environ 2 à 5 couches), mais nous démontrons qu'une profondeur de 1024 couches améliore significativement les performances. Nos expériences sont menées dans un environnement de conditionnement à un objectif non supervisé, sans démonstrations ni récompenses, obligeant l'agent à explorer et à apprendre à partir de zéro comment maximiser la probabilité d'atteindre l'objectif. Les évaluations sur des tâches de mouvement et de manipulation simulées montrent que notre méthode atteint une amélioration des performances d'un facteur ± par rapport aux algorithmes d'apprentissage par renforcement auto-supervisé comparatifs, surpassant ainsi d'autres méthodes de conditionnement à un objectif de référence. L'augmentation de la profondeur du modèle améliore non seulement le taux de réussite, mais modifie aussi fondamentalement le comportement appris.

* Adresse du papier :https://go.hyper.ai/HR0Hx

4. Pourquoi les modèles de diffusion ne reposent pas sur la mémorisation par cœur : le rôle de la régularisation dynamique implicite dans l'entraînement.

Pourquoi les modèles de diffusion ne mémorisent pas : le rôle de la régularisation dynamique implicite dans l’apprentissage

* Équipe de recherche :Université Paris Sciences et Lafayette (Université PSL) et Université Bocconi

* Diffusion des résumés :Le modèle a obtenu des résultats remarquables dans diverses tâches génératives. Un défi majeur consiste à comprendre les mécanismes qui lui permettent d'éviter la mémorisation des données d'entraînement et de généraliser. Cette étude explore le rôle de la dynamique d'entraînement dans la transition de la généralisation à la mémorisation. Grâce à des expériences approfondies et à une analyse théorique, nous avons identifié deux échelles de temps distinctes : une phase initiale où le modèle commence à générer des échantillons de haute qualité, et une phase ultérieure où la mémorisation se produit. Un résultat clé est que la phase initiale croît linéairement avec la taille de l'ensemble d'entraînement, tandis que la phase ultérieure reste constante. Ceci forme une fenêtre asymptotique de temps d'entraînement : durant laquelle le modèle généralise efficacement, mais une forte mémorisation se produit si l'entraînement se poursuit au-delà de cette période. Le surapprentissage ne disparaît avec un temps d'entraînement infini que lorsque cette échelle de temps dépasse un seuil spécifique au modèle. Ces résultats révèlent un mécanisme de régularisation dynamique implicite dans la dynamique d'entraînement, qui évite la mémorisation même dans des configurations fortement surparamétrées. Nos conclusions sont validées par des expériences numériques sur des ensembles de données réels et synthétiques utilisant l'architecture U-Net standard et sont étayées par une analyse théorique de modèles de caractéristiques stochastiques traitables dans des limites de grande dimension.

* Adresse du papier :https://go.hyper.ai/UloDv

finaliste

1. L’apprentissage par renforcement peut-il réellement inciter les modèles d’apprentissage logique à améliorer leurs capacités de raisonnement au-delà du modèle de base ?

Titre : L’apprentissage par renforcement incite-t-il réellement à développer les capacités de raisonnement dans les LLM au-delà du modèle de base ?

* Équipe:Laboratoire LeapLab de l'Université Tsinghua, Université Jiao Tong de Shanghai

* Abstrait:Ces dernières années, l'apprentissage par renforcement basé sur des récompenses vérifiables (RLVR) a permis d'améliorer significativement les performances de raisonnement des grands modèles de langage (LLM), notamment pour les tâches mathématiques et de programmation. On considère généralement que, de la même manière que l'apprentissage par renforcement traditionnel aide les agents à explorer et à apprendre de nouvelles stratégies, le RLVR permet aux LLM de s'améliorer continuellement, acquérant ainsi de nouvelles capacités de raisonnement supérieures à celles des modèles sous-jacents. Cette étude explore systématiquement les limites des capacités de raisonnement des LLM entraînés par RLVR à travers différentes familles de modèles, algorithmes d'apprentissage par renforcement et benchmarks de raisonnement mathématique, de programmation et visuel, et propose une analyse approfondie de l'état actuel du RLVR.

Nous utilisons la métrique pass@k pour les grandes valeurs de k comme métrique d'évaluation. Nos recherches révèlent que, bien que RLVR améliore l'efficacité d'échantillonnage des chemins corrects, les méthodes d'entraînement actuelles ne génèrent pas, de façon surprenante, de nouveaux schémas d'inférence. Nous observons que si les modèles entraînés par RLVR surpassent leurs modèles de base pour les petites valeurs de k (par exemple, k = 1), le modèle de base obtient un score pass@k plus élevé pour les grandes valeurs. De plus, nous observons que la limite de capacité d'inférence des LLM se réduit généralement à mesure que l'entraînement RLVR progresse. Des analyses de couverture et de perplexité supplémentaires indiquent que les chemins d'inférence générés par les modèles RLVR sont déjà inclus dans la distribution d'échantillonnage du modèle de base, ce qui suggère que leurs capacités d'inférence sont dérivées et limitées par ce dernier. Dans cette perspective, en considérant le modèle de base comme la limite supérieure, notre analyse quantitative montre que les performances des six algorithmes RLVR les plus courants sont similaires, loin d'atteindre le niveau optimal d'exploitation du potentiel du modèle de base.

En revanche, nous constatons que la distillation peut introduire de nouveaux schémas de raisonnement à partir du modèle enseignant et étendre véritablement les capacités de raisonnement du modèle. En résumé, nos résultats démontrent que les méthodes RLVR actuelles n'ont pas pleinement exploité le potentiel de l'apprentissage par renforcement pour inspirer des capacités de raisonnement véritablement inédites dans les LLM. Ceci souligne la nécessité d'améliorer les paradigmes d'apprentissage par renforcement, tels que l'expansion continue et les interactions agent-environnement à plusieurs tours, afin de libérer ce potentiel.

* Adresse du papier :https://go.hyper.ai/fwkSX

2. Bornage optimal des erreurs pour l'apprentissage en ligne par diffusion directe

Titre : Limites d'erreur optimales pour l'apprentissage en ligne transductif

* Équipe:Université d'État de Kent, Université Purdue, Recherche Google, MIT

résumé:Nous abordons une question ouverte vieille de 30 ans concernant le rôle des données non étiquetées dans l'apprentissage en ligne. Pour ce faire, nous quantifions précisément l'écart entre l'apprentissage en ligne transductif et l'apprentissage en ligne standard. Nous démontrons que pour toute classe de concepts de Littlestone de dimension n, la borne d'erreur transductive est au moins égale à n. Ceci représente une amélioration exponentielle par rapport aux bornes inférieures précédentes n<sub>1</sub>, n<sub>2</sub> et n<sub>3</sub>, respectivement établies par Ben-David, Kushilevitz et Mansour (1995, 1997) et Hanneke, Moran et Shafer (2023). Nous démontrons également que notre borne est optimale : pour tout n, il existe une classe de concepts de Littlestone de dimension n avec une borne d'erreur transductive de n<sub>1</sub>. Notre borne supérieure améliore également la meilleure borne supérieure connue jusqu'alors, établie par Ben-David et al. (1997). Ces résultats mettent en évidence un écart quadratique entre l'apprentissage transductif et l'apprentissage standard en ligne, soulignant les avantages d'un accès précoce à des séquences d'instances non étiquetées. Ceci contraste fortement avec le contexte PAC, où l'apprentissage transductif et l'apprentissage standard présentent une complexité d'échantillon similaire.

* Adresse postale :https://go.hyper.ai/00rHz

3. La structure de superposition confère une évolutivité robuste aux réseaux neuronaux.

Titre : La superposition permet une mise à l'échelle neuronale robuste

équipe:Institut de technologie du Massachusetts

résumé:Le succès actuel des grands modèles de langage (LLM) repose sur le constat que les modèles plus grands sont plus performants. Cependant, l'origine de cette loi d'échelle neuronale, où la perte diminue selon une loi de puissance avec la taille du modèle, demeure obscure. Nous proposons que l'empilement de représentations (c'est-à-dire le fait que le nombre de caractéristiques représentées par un LLM dépasse sa dimensionnalité) soit un facteur clé de la perte et induise cette mise à l'échelle neuronale. À partir d'un modèle simplifié d'Anthropic, nous étudions systématiquement l'évolution de la perte en fonction de la taille du modèle en contrôlant le degré d'empilement par la décroissance des poids. Lorsque l'empilement est faible, la perte suit une loi de puissance uniquement si la fréquence des caractéristiques des données suit une distribution en loi de puissance. Inversement, en cas d'empilement fort, la perte est généralement inversement proportionnelle à la dimensionnalité du modèle sur une large distribution de fréquences, en raison du chevauchement géométrique entre les vecteurs de représentation. Nous démontrons que les LLM open source fonctionnant avec un empilement fort présentent une relation inverse entre la perte et la dimensionnalité du modèle, et que la loi d'échelle de Chinchilla est cohérente avec ce résultat. Nos résultats suggèrent que l'empilement de représentations est un facteur déterminant de la mise à l'échelle neuronale, apportant des éclairages sur des questions telles que les conditions dans lesquelles la mise à l'échelle neuronale peut être améliorée et celles dans lesquelles elle échoue.

* Adresse postale :https://go.hyper.ai/AyLWt

Si vous souhaitez en savoir plus sur les articles de pointe en IA,
Bienvenue sur :https://hyper.ai/papers