Date

il y a 3 mois

Organisation

URL du document

openreview.net

Balises

Apprentissage Par Renforcement

Apprentissage Automatique

Cadre Algorithmique Et De Modélisation

L'algorithme PRGS (Peak-Return Greedy Slicing) est un cadre algorithmique proposé conjointement par des équipes de recherche de l'Université du Shandong, de l'Académie chinoise des sciences, de l'Université Tsinghua (Li Auto) et d'autres institutions. Les résultats de ces recherches ont été publiés dans [nom de l'article manquant]. Découpage glouton par retour de pic : sélection de sous-trajectoires pour l’apprentissage par renforcement hors ligne basé sur les transformeursElle a été acceptée par ICLR 2026.

PRGS vise à améliorer significativement les capacités d'assemblage et de réorganisation de l'expérience des modèles d'apprentissage par renforcement hors ligne (Offline RL) basés sur Transformer, grâce à un partitionnement explicite des trajectoires au niveau de chaque pas de temps. Plongeant au piège des méthodes existantes qui s'appuient souvent uniquement sur la trajectoire complète et la récompense finale, rendant difficile la distinction entre les segments supérieurs et inférieurs au sein de longues trajectoires, ce cadre utilise trois mécanismes principaux (estimation de la récompense basée sur la MMD, politique de découpage glouton et troncature adaptative de l'historique) pour partitionner et extraire explicitement des sous-trajectoires de haute qualité pour l'entraînement de la politique au niveau de chaque pas de temps. Les expériences montrent que PRGS améliore significativement la capacité du modèle à assembler les expériences à forte récompense, atteignant une amélioration moyenne des performances de 15,81 TP3T par rapport à l'algorithme de référence original dans plusieurs environnements complexes.

Associé Wiki

Théorie De l'espace

La théorie spatiale désigne le cadre conceptuel permettant à un agent intelligent de construire, de mettre à jour et d'utiliser des représentations spatiales dans un environnement d'informations incomplètes grâce à une exploration active.

il y a 3 mois

Retriever Dense

Le moteur de recherche dense est chargé de trouver rapidement, au sein d'une vaste bibliothèque de documents, les paragraphes les plus pertinents par rapport à la sémantique de la requête ; il constitue le composant fondamental du système de génération d'amélioration de la recherche.

il y a 3 mois

Reconnaissance Optique De Caractères (OCR)

La reconnaissance optique de caractères (OCR) convertit le texte des images en texte modifiable, constituant ainsi la base de la numérisation des documents et de l'extraction automatisée d'informations.

il y a 2 jours

Apprendre En Déployant

LWD est un cadre d'apprentissage par renforcement hors ligne à en ligne au niveau de la flotte qui permet aux robots à usage général de collecter en continu de l'expérience et de réaliser une auto-évolution des politiques.

il y a 2 mois

Renforcement De La Pensée Guidée

GTR peut guider le raisonnement du modèle dans des environnements visuels complexes et prévenir la « panne cérébrale ».

il y a 3 mois

Télédétection

L'analyse des images satellitaires et de drones pour surveiller la surface et l'environnement terrestres permet une compréhension géospatiale sans contact et une observation macroscopique de la Terre.

il y a 2 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Date

il y a 3 mois

Organisation

URL du document

openreview.net

Balises

Apprentissage Par Renforcement

Apprentissage Automatique

Cadre Algorithmique Et De Modélisation

Associé Wiki

Renforcement De La Pensée Guidée

GTR peut guider le raisonnement du modèle dans des environnements visuels complexes et prévenir la « panne cérébrale ».

il y a 3 mois

Télédétection

il y a 2 jours

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Découpage Gourmand À Rendement Maximal

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Découpage Gourmand À Rendement Maximal

Associé Wiki

Théorie De l'espace

Retriever Dense

Reconnaissance Optique De Caractères (OCR)

Apprendre En Déployant

Renforcement De La Pensée Guidée

Télédétection

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Découpage Gourmand À Rendement Maximal

Associé Wiki

Théorie De l'espace

Retriever Dense

Reconnaissance Optique De Caractères (OCR)

Apprendre En Déployant

Renforcement De La Pensée Guidée

Télédétection

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Wiki

Théorie De l'espace

Retriever Dense

Reconnaissance Optique De Caractères (OCR)

Apprendre En Déployant

Renforcement De La Pensée Guidée

Télédétection

Associé Wiki

Théorie De l'espace

Retriever Dense

Reconnaissance Optique De Caractères (OCR)

Apprendre En Déployant

Renforcement De La Pensée Guidée

Télédétection