HyperAIHyperAI

Command Palette

Search for a command to run...

Renforcement De La Pensée Guidée

Le cadre de renforcement de la pensée guidée (GTR) a été proposé par des chercheurs de l'université Tsinghua, de Tencent et de l'université de Pékin le 11 juillet 2025. Les résultats de recherche pertinents ont été publiés dans un article. GTR : Le renforcement guidé de la pensée empêche l’effondrement de la pensée dans l’entraînement des agents VLM basé sur l’apprentissage par renforcement .

GTR est un framework simple et évolutif combinant correction automatique d'erreurs et apprentissage par renforcement. Il est principalement conçu pour résoudre le problème de « défaillance du raisonnement » des agents VLM (Visual Language Model) prenant des décisions en plusieurs étapes dans des environnements visuels complexes, un problème qui survient lorsqu'ils se fient uniquement aux récompenses obtenues. Ce framework introduit un correcteur d'erreurs automatique pour évaluer et améliorer le raisonnement de l'agent à chaque étape de l'apprentissage par renforcement, permettant ainsi l'entraînement simultané du raisonnement et des actions sans annotation manuelle point par point. Les résultats de recherche montrent que GTR supprime efficacement la défaillance du raisonnement et améliore significativement les performances et la capacité de généralisation des modèles (tels que LLaVA-7B) dans divers environnements visuels. Dans des scénarios complexes comme le jeu des 24 points et les tâches incarnées, il permet aux modèles d'atteindre un taux de réussite 3 à 5 fois supérieur à celui des modèles de pointe existants, avec un nombre de paramètres inférieur.




Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp