Date

il y a 3 mois

Organisation

URL du document

2505.22094

Balises

ReinFlow a été proposé conjointement en septembre 2025 par une équipe de recherche de l'Université Carnegie Mellon, de l'Université Tsinghua et d'autres universités et institutions. Les résultats de cette recherche ont été publiés dans l'article « ... ».ReinFlow : Optimisation de la politique de correspondance de flux grâce à l’apprentissage par renforcement en ligneIl a été sélectionné pour NeurIPS 2025.

ReinFlow est le premier algorithme d'apprentissage par renforcement en ligne capable d'ajuster finement et de manière stable un ensemble de politiques de correspondance de flux pour une classe de politiques de correspondance de flux dans le contrôle continu de robots. Basé sur une théorie rigoureuse de l'apprentissage par renforcement, ce paradigme injecte un bruit apprenable dans le chemin déterministe de la politique de flux, transformant ainsi le flux en un processus de Markov à temps discret. Ceci permet un calcul de probabilité précis et direct. Cette transformation facilite l'exploration et assure la stabilité de l'entraînement, permettant à ReinFlow d'ajuster finement et de manière stable diverses variantes de modèles de flux, notamment avec très peu d'étapes de débruitage, voire une seule.

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

Date

il y a 3 mois

Organisation

URL du document

2505.22094

Balises

Robotique

Apprentissage Automatique

Associé Wiki

Flux SAC

SAC Flow atteint des performances de pointe en matière de contrôle continu et de fonctionnement des robots.

il y a 3 mois

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

RewardMap améliore les capacités des grands modèles de langage multimodaux dans les tâches de vision structurée.

il y a 2 mois

Analyse Forensique Fractale

FractalForensics présente une bonne robustesse et une bonne vulnérabilité aux opérations courantes de traitement d'images et aux opérations Deepfake.

il y a 2 mois

Optimisation De La Stratégie De Variance De Groupe GVPO

Compte tenu des limites des techniques de réglage fin existantes telles que GRPO, GVPO est apparu comme un paradigme de post-entraînement fiable et polyvalent.

il y a 3 mois

NovaFlow, Un Cadre De Fonctionnement Autonome

NovaFlow est capable de manipuler des objets rigides, articulés et déformables sous différentes formes robotiques.

il y a 3 mois

Gradient spatio-temporel Normalisé (NSG)

La statistique NSG quantifie le rapport entre le gradient de probabilité spatiale et la variation temporelle de la densité.

il y a 2 mois

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

Un nouveau cadre d'optimisation de contraintes discriminatives basé sur des principes évite les biais de difficulté et l'instabilité de l'apprentissage.

il y a 2 mois

FOA-Attack, Un Cadre d'attaque Adverse Ciblé Basé Sur La Migration

En alignant conjointement les caractéristiques globales et locales, les exemples adverses peuvent être efficacement guidés vers la distribution de caractéristiques cible et la transférabilité peut être améliorée.

il y a 2 mois

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

L’AEPO se concentre sur l’équilibrage et la rationalisation des branches d’extension de stratégie et des mises à jour de stratégie sous la direction d’appels d’outils à haute entropie.

il y a 2 mois

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

ReinFlow, Un Cadre d'apprentissage Par Renforcement En Ligne

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ReinFlow, Un Cadre d'apprentissage Par Renforcement En Ligne

Associé Wiki

Flux SAC

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Analyse Forensique Fractale

Optimisation De La Stratégie De Variance De Groupe GVPO

NovaFlow, Un Cadre De Fonctionnement Autonome

Gradient spatio-temporel Normalisé (NSG)

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

FOA-Attack, Un Cadre d'attaque Adverse Ciblé Basé Sur La Migration

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

ReinFlow, Un Cadre d'apprentissage Par Renforcement En Ligne

Associé Wiki

Flux SAC

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Analyse Forensique Fractale

Optimisation De La Stratégie De Variance De Groupe GVPO

NovaFlow, Un Cadre De Fonctionnement Autonome

Gradient spatio-temporel Normalisé (NSG)

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

FOA-Attack, Un Cadre d'attaque Adverse Ciblé Basé Sur La Migration

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

Créer de l'IA avec l'IA

HyperAI Newsletters

Associé Wiki

Flux SAC

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Analyse Forensique Fractale

Optimisation De La Stratégie De Variance De Groupe GVPO

NovaFlow, Un Cadre De Fonctionnement Autonome

Gradient spatio-temporel Normalisé (NSG)

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

FOA-Attack, Un Cadre d'attaque Adverse Ciblé Basé Sur La Migration

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO

Associé Wiki

Flux SAC

RewardMap, Un Cadre d'apprentissage Par Renforcement Multi-étapes

Analyse Forensique Fractale

Optimisation De La Stratégie De Variance De Groupe GVPO

NovaFlow, Un Cadre De Fonctionnement Autonome

Gradient spatio-temporel Normalisé (NSG)

Cadre d'optimisation Par Contraintes Discriminatives (DisCO)

FOA-Attack, Un Cadre d'attaque Adverse Ciblé Basé Sur La Migration

Optimisation De La Stratégie d'équilibrage De l'entropie Des Agents AEPO