Rapport Hebdomadaire Sur l'IA | Modèles Open Source NVIDIA / Benchmarks OpenAI / Systèmes d'agents / Inférence Contextuelle Longue… Un Bref Aperçu Des Actualités En IA

Les grands modèles de langage (LLM) ont démontré un potentiel considérable pour transformer les systèmes de recommandation, passant d'une reconnaissance implicite des comportements à une inférence explicite des intentions. RecGPT-V1 a ouvert la voie à ce paradigme en intégrant l'inférence basée sur les LLM à l'analyse des centres d'intérêt des utilisateurs et à la prédiction des étiquettes des articles, mais il souffre de quatre limitations fondamentales :
* Faible efficacité de calcul et redondance cognitive sur plusieurs chemins de raisonnement ;
* Interprétabilité insuffisante dans la génération de modèles fixes ;
* Applicabilité limitée dans le cadre du paradigme d'apprentissage supervisé ;
* Les évaluations simplistes et axées sur les résultats ne répondent pas aux normes humaines.
Pour pallier les limitations existantes, l'équipe de recherche d'Alibaba a publié la dernière version, RecGPT-V2. Cette itération comprend quatre innovations majeures :
* Construire un système multi-agents hiérarchique.
* Proposer un cadre de méta-incitation.
* Introduire un mécanisme d'apprentissage par renforcement basé sur des contraintes ;
* Concevoir un cadre d'évaluation de l'agent en tant que juge.
RecGPT-V2 a non seulement vérifié la faisabilité technique du raisonnement intentionnel basé sur de grands modèles de langage, mais a également prouvé sa faisabilité commerciale dans des scénarios industriels à grande échelle, comblant avec succès le fossé entre l'exploration cognitive et l'application industrielle.
Lien vers le document:https://go.hyper.ai/wftNU
Derniers articles sur l'IA:https://go.hyper.ai/hzChC
Afin de permettre à davantage d'utilisateurs de connaître les derniers développements dans le domaine de l'intelligence artificielle dans le milieu universitaire, le site Web officiel d'HyperAI (hyper.ai) a désormais lancé une section « Derniers articles », qui met à jour quotidiennement les articles de recherche de pointe sur l'IA.Voici 5 articles populaires sur l'IA que nous recommandons, jetons un coup d’œil rapide aux réalisations de pointe en matière d’IA de cette semaine⬇️
Recommandation de papier de cette semaine
1. Nemotron 3 Nano : Modèle hybride Mamba-Transformer ouvert et efficace, basé sur un mélange d’experts, pour le raisonnement agentiel
Cet article présente Nemotron 3 Nano 30B-A3B, un modèle de langage hybride Mamba-Transformer basé sur une architecture de type Mixture-of-Experts. Nemotron 3 Nano a été pré-entraîné sur 25 000 milliards d'étiquettes textuelles, dont plus de 3 000 milliards d'étiquettes uniques par rapport à Nemotron 2, puis affiné par apprentissage supervisé et par renforcement à grande échelle dans divers environnements. Le modèle améliore significativement le comportement des agents, leur capacité de raisonnement et l'interaction dialogique, et prend en charge des contextes allant jusqu'à un million d'étiquettes.
Lien vers l'article :https://go.hyper.ai/LtmY3

2. Sciences de la frontière
Cet article propose FrontierScience, un test de référence pour évaluer les capacités de l'intelligence artificielle en matière de raisonnement scientifique de niveau expert. FrontierScience comprend deux volets : (1) le volet Olympiades, qui couvre les problèmes des Olympiades internationales (IPhO, IChO et IBO) ; et (2) le volet Recherche, qui inclut des problèmes ouverts de niveau doctoral, représentant des sous-problèmes typiques de la recherche scientifique.
Lien vers l'article :https://go.hyper.ai/XanPc

3. AutoGLM : Agents de base autonomes pour interfaces graphiques
Cet article présente AutoGLM, une nouvelle série au sein de la famille ChatGLM, conçue comme agent de base permettant le contrôle autonome d'appareils numériques via des interfaces graphiques (GUI). L'équipe de recherche a développé AutoGLM en utilisant des navigateurs web et des téléphones mobiles comme scénarios d'interface graphique typiques, créant ainsi un système d'agent de base pratique pour l'interaction avec des interfaces graphiques en conditions réelles.
Lien vers l'article :https://go.hyper.ai/SLjro

4. Rapport technique RecGPT-V2
Cet article propose RecGPT-V2, qui repose sur quatre innovations majeures : premièrement, la construction d’un système multi-agents hiérarchique ; deuxièmement, la proposition d’un cadre de méta-incitation ; troisièmement, l’introduction d’un mécanisme d’apprentissage par renforcement contraint ; et quatrièmement, la conception d’un cadre d’évaluation où l’agent joue le rôle de juge. RecGPT-V2 vérifie non seulement la faisabilité technique du raisonnement intentionnel basé sur de grands modèles de langage, mais démontre également sa viabilité commerciale dans des scénarios industriels à grande échelle, comblant ainsi le fossé entre l’exploration cognitive et les applications industrielles.
Lien vers l'article :https://go.hyper.ai/TdjZJ

5.Deeper-GXX : Approfondissement des GNN arbitraires
Cet article présente QwenLong-L1.5, un modèle qui atteint des capacités de raisonnement à long contexte supérieures grâce à des innovations systématiques post-entraînement. Basé sur l'architecture Qwen3-30B-A3B-Thinking, QwenLong-L1.5 obtient des performances proches de celles de GPT-5 et Gemini-2.5-Pro dans les benchmarks de raisonnement à long contexte, avec une amélioration moyenne de 9,90 points par rapport à ses modèles de référence. Dans les tâches ultra-longues (de 1 à 4 millions de jetons), son cadre d'agent de mémoire permet une amélioration significative de 9,48 points par rapport à l'agent de référence.
Lien vers l'article :https://go.hyper.ai/vViJi

Voici l'intégralité du contenu de la recommandation d'article de cette semaine. Pour découvrir d'autres articles de recherche de pointe en IA, veuillez consulter la section « Derniers articles » du site officiel d'hyper.ai.
Nous invitons également les équipes de recherche à nous soumettre des résultats et des articles de haute qualité. Les personnes intéressées peuvent ajouter leur compte WeChat NeuroStar (identifiant WeChat : Hyperai01).
À la semaine prochaine !