Date

il y a 2 mois

Organisation

URL du document

Balises

Mem-I a été proposé en septembre 2025 par une équipe de recherche d'Anuttacon, de l'Université de Californie à San Diego et de l'Université Stanford. Les résultats de cette recherche ont été publiés dans un article. Mem-α : Apprentissage de la construction de la mémoire par apprentissage par renforcement .

Mem-I est un cadre d'apprentissage par renforcement qui entraîne des agents à gérer efficacement des systèmes de mémoire complexes grâce à l'interaction et au retour d'information. Contrairement aux méthodes existantes, ce cadre permet aux agents d'apprendre des stratégies de construction de la mémoire pour des architectures de mémoire complexes et multicomposantes. Premièrement, les chercheurs formulent le processus de construction de la mémoire comme un problème de prise de décision séquentielle : l'agent traite des blocs d'information, décide des opérations de mémoire à effectuer et reçoit plusieurs récompenses en fonction de la précision de ses réponses aux questions posées tout au long de l'historique des interactions. Deuxièmement, un ensemble de données d'entraînement spécialisé, couvrant divers modèles d'interaction à plusieurs tours (dialogue, partage de documents, reconnaissance de formes et narration), est construit, associé à des questions d'évaluation complètes exigeant la mobilisation de toute la mémoire pour y répondre correctement.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Date

il y a 2 mois

Organisation

URL du document

2509.25911

Balises

Intelligence Artificielle

Associé Wiki

CapRL Décrit l'apprentissage Par Renforcement

CapRL permet d'entraîner efficacement des modèles à générer des descriptions d'images plus générales et plus précises.

il y a 2 mois

Deviner – Réfléchir – Répondre

GTA surpasse nettement les méthodes de référence SFT standard et les méthodes RL de pointe dans de multiples benchmarks de classification de texte.

il y a 3 mois

Réseau De Mélange exponentiel-gaussien EGMN

EGMN a réussi à capturer les effets d'interaction potentiels entre les préférences des utilisateurs et les caractéristiques vidéo.

il y a 3 mois

Méthode De post-formation DiDi-Instruct

Le premier cadre à appliquer avec succès la distillation de correspondance de distribution à la génération de texte basée sur MDM, établissant un record dans la génération de séquences linguistiques en quelques étapes.

il y a 2 mois

Cadre De Contrôle De Mise En Page InstanceAssemble

InstanceAssemble permet la génération d'images de haute qualité et contrôlables dans des conditions multimodales.

il y a 2 mois

Architecture MultiPL-MoE

MultiPL-MoE est une méthode efficace pour étendre les langages de programmation à faible source dans la phase de post-pré-entraînement.

il y a 2 mois

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

RewardMap améliore les capacités des grands modèles de langage multimodaux dans les tâches de vision structurée.

il y a 2 mois

Cadre d'optimisation De La Stratégie Hybride HiPO

HiPO est utilisé pour l'inférence LLM adaptative, incluant principalement la construction de données hybrides et l'apprentissage par renforcement hybride.

il y a 2 mois

Flux De Travail multi-agents CudaForge

CudaForge est un flux de travail multi-agents simple, efficace et peu coûteux pour la génération et l'optimisation de noyaux CUDA.

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Cadre d'apprentissage Par Renforcement Mem-I

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Cadre d'apprentissage Par Renforcement Mem-I

Associé Wiki

CapRL Décrit l'apprentissage Par Renforcement

Deviner – Réfléchir – Répondre

Réseau De Mélange exponentiel-gaussien EGMN

Méthode De post-formation DiDi-Instruct

Cadre De Contrôle De Mise En Page InstanceAssemble

Architecture MultiPL-MoE

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Cadre d'optimisation De La Stratégie Hybride HiPO

Flux De Travail multi-agents CudaForge

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Cadre d'apprentissage Par Renforcement Mem-I

Associé Wiki

CapRL Décrit l'apprentissage Par Renforcement

Deviner – Réfléchir – Répondre

Réseau De Mélange exponentiel-gaussien EGMN

Méthode De post-formation DiDi-Instruct

Cadre De Contrôle De Mise En Page InstanceAssemble

Architecture MultiPL-MoE

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Cadre d'optimisation De La Stratégie Hybride HiPO

Flux De Travail multi-agents CudaForge

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Wiki

CapRL Décrit l'apprentissage Par Renforcement

Deviner – Réfléchir – Répondre

Réseau De Mélange exponentiel-gaussien EGMN

Méthode De post-formation DiDi-Instruct

Cadre De Contrôle De Mise En Page InstanceAssemble

Architecture MultiPL-MoE

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Cadre d'optimisation De La Stratégie Hybride HiPO

Flux De Travail multi-agents CudaForge

Associé Wiki

CapRL Décrit l'apprentissage Par Renforcement

Deviner – Réfléchir – Répondre

Réseau De Mélange exponentiel-gaussien EGMN

Méthode De post-formation DiDi-Instruct

Cadre De Contrôle De Mise En Page InstanceAssemble

Architecture MultiPL-MoE

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Cadre d'optimisation De La Stratégie Hybride HiPO

Flux De Travail multi-agents CudaForge