Rapport Hebdomadaire Sur l'IA : Méthodes d'inférence Récursive, Architectures De Décodeurs Légers, Architectures De Réseaux Neuronaux Convolutifs Profonds, Et Plus Encore - Aperçu Des Développements De Pointe Dans De Nombreux Domaines

L'objectif à long terme des agents basés sur le langage est d'apprendre et d'optimiser continuellement grâce à l'expérience, pour finalement surpasser les performances humaines dans des tâches complexes du monde réel. Cependant, l'entraînement des agents par apprentissage par renforcement basé uniquement sur des données empiriques reste complexe dans de nombreux environnements, où les signaux de récompense vérifiables font défaut (par exemple, les interactions avec les pages web) ou où la répétition inefficace des trajectoires à long terme est requise (par exemple, plusieurs cycles d'utilisation d'outils). Par conséquent, la plupart des agents actuels s'appuient encore sur un réglage fin supervisé utilisant des données expertes, une approche difficile à déployer à grande échelle et peu généralisable.
Pour surmonter cette limitation, le Meta Superintelligence Lab, Meta FAIR et l'Université d'État de l'Ohio ont proposé conjointement un paradigme de compromis appelé « Expérience Précoce ». Ce paradigme utilise les données d'interaction générées par le comportement de l'agent lui-même, les états futurs servant de signaux de supervision, plutôt que de s'appuyer sur des signaux de récompense. Ce paradigme a posé des bases solides pour l'apprentissage par renforcement ultérieur, constituant ainsi une passerelle viable entre l'apprentissage par imitation et les agents entièrement pilotés par l'expérience.
Lien vers le document:https://go.hyper.ai/a8Zkn
Derniers articles sur l'IA:https://go.hyper.ai/hzChC
Afin de permettre à davantage d'utilisateurs de connaître les derniers développements dans le domaine de l'intelligence artificielle dans le milieu universitaire, le site Web officiel d'HyperAI (hyper.ai) a désormais lancé une section « Derniers articles », qui met à jour quotidiennement les articles de recherche de pointe sur l'IA.Voici 5 articles populaires sur l'IA que nous recommandons, jetons un coup d’œil rapide aux réalisations de pointe en matière d’IA de cette semaine⬇️
Recommandation de papier de cette semaine
1. Moins, c'est plus : Raisonnement récursif avec de minuscules réseaux
Cet article propose le Tiny Recursive Model (TRM), une méthode d'inférence récursive simplifiée qui surpasse largement le HRM en généralisation, tout en s'appuyant uniquement sur un minuscule réseau neuronal à deux couches. Avec seulement 7 millions de paramètres, TRM atteint une précision de test de 451 TP3T sur la tâche ARC-AGI-1 et de 81 TP3T sur la tâche ARC-AGI-2, dépassant ainsi les performances de la plupart des grands modèles de langage (tels que Deepseek R1 et o3-mini), tout en utilisant moins de 0,011 TP3T des paramètres de ces modèles.
Lien vers l'article :https://go.hyper.ai/bUZ6M

2. PromptCoT 2.0 : Synthèse d'invites à l'échelle pour le raisonnement LLM
Cet article présente PromptCoT 2.0, un cadre évolutif qui remplace les règles heuristiques élaborées manuellement par une boucle itérative d'espérance-maximisation (EM) pour guider la construction des prompts en optimisant itérativement le processus d'inférence. Cette approche génère des questions non seulement plus complexes, mais aussi plus diversifiées que celles des corpus précédents.
Lien vers l'article :https://go.hyper.ai/jKAmy

3. Envie d'apprendre : Gating dynamique par jeton pour la modélisation vision-langage à faibles ressources
Cet article propose une architecture de décodeur léger avec trois conceptions clés : (1) un mécanisme de filtrage dynamique au niveau du jeton pour réaliser une fusion adaptative du langage et des indices visuels ; (2) un mécanisme de modulation des caractéristiques et d'attention du canal pour maximiser l'efficacité d'utilisation des informations visuelles limitées ; et (3) un objectif d'apprentissage de contraste auxiliaire pour améliorer les capacités de localisation visuelle.
Lien vers l'article :https://go.hyper.ai/D178P

4. Apprentissage de l'agent via l'expérience précoce
La plupart des agents intelligents actuels s'appuient encore sur un réglage fin supervisé utilisant des données expertes, mais cette approche est difficile à déployer à grande échelle et souffre d'une faible généralisation. Cette limitation découle de la nature des démonstrations expertes : elles ne couvrent qu'un nombre limité de scénarios, ce qui entraîne une diversité insuffisante des environnements exposés à l'agent. Pour surmonter cette limitation, cet article propose un paradigme de compromis : l'« expérience précoce », qui consiste à utiliser les données d'interaction générées par l'agent via son propre comportement, les états futurs servant de signaux de supervision, sans s'appuyer sur des signaux de récompense.
Lien vers l'article :https://go.hyper.ai/a8Zkn

5. Xception : apprentissage profond avec convolutions séparables en profondeur
Cet article propose Xception, une nouvelle architecture de réseau neuronal convolutif profond inspirée d'Inception, dans laquelle le module Inception a été remplacé par des convolutions séparables en profondeur. L'architecture Xception ayant le même nombre de paramètres qu'Inception V3, l'amélioration des performances n'est pas due à une augmentation de la capacité du modèle, mais plutôt à une utilisation plus efficace de ses paramètres.
Lien vers le document:https://go.hyper.ai/0BUt5

Voici l'intégralité du contenu de la recommandation d'article de cette semaine. Pour découvrir d'autres articles de recherche de pointe en IA, veuillez consulter la section « Derniers articles » du site officiel d'hyper.ai.
Nous invitons également les équipes de recherche à nous soumettre des résultats et des articles de haute qualité. Les personnes intéressées peuvent ajouter leur compte WeChat NeuroStar (identifiant WeChat : Hyperai01).
À la semaine prochaine !