Datum

vor 3 Monaten

Organisation

Paper-URL

2505.22094

Tags

ReinFlow wurde im September 2025 von einem Forschungsteam der Carnegie Mellon University, der Tsinghua University und weiterer Universitäten und Institutionen gemeinsam vorgeschlagen. Die entsprechenden Forschungsergebnisse wurden in der Publikation „…“ veröffentlicht.ReinFlow: Feinabstimmung der Flow-Matching-Richtlinie mit Online-Reinforcement-LearningEs wurde für die NeurIPS 2025 ausgewählt.

ReinFlow ist der erste Online-Reinforcement-Learning-Algorithmus, der eine Reihe von Flow-Matching-Strategien für eine Klasse von Flow-Matching-Strategien in der kontinuierlichen Robotersteuerung stabil feinabstimmen kann. Basierend auf der Theorie des Reinforcement Learnings fügt dieses Paradigma lernbares Rauschen in den deterministischen Pfad der Flow-Strategie ein und transformiert den Flow so in einen diskreten Markov-Prozess. Dies ermöglicht eine genaue und direkte Wahrscheinlichkeitsberechnung. Diese Transformation erleichtert die Exploration und gewährleistet die Stabilität des Trainings, wodurch ReinFlow verschiedene Flow-Modellvarianten stabil feinabstimmen kann, insbesondere mit sehr wenigen oder sogar nur einem einzigen Entrauschungsschritt.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Datum

vor 3 Monaten

Organisation

Paper-URL

2505.22094

Verwandt Wiki

SAC-Durchfluss

SAC Flow erzielt Bestleistungen bei Benchmarks für kontinuierliche Steuerung und Roboterbetrieb.

vor 3 Monaten

RewardMap, Ein Mehrstufiges Reinforcement-Learning-Framework

RewardMap erweitert die Fähigkeiten multimodaler großer Sprachmodelle bei strukturierten Bildverarbeitungsaufgaben.

vor 2 Monaten

Fraktale Forensik

FractalForensics weist eine gute Robustheit und Anfälligkeit gegenüber gängigen Bildverarbeitungsoperationen und Deepfake-Operationen auf.

vor 2 Monaten

Gruppenvarianzstrategieoptimierung (GVPO)

Angesichts der Einschränkungen bestehender Feinabstimmungstechniken wie GRPO hat sich GVPO als zuverlässiges und vielseitiges Nachbearbeitungsparadigma etabliert.

vor 3 Monaten

NovaFlow, Ein Autonomes Betriebssystem

NovaFlow ist in der Lage, starre, gelenkige und verformbare Objekte in verschiedenen Roboterformen zu handhaben.

vor 3 Monaten

Normalisierter Raumzeitlicher Gradient (NSG)

Die NSG-Statistik quantifiziert das Verhältnis des räumlichen Wahrscheinlichkeitsgradienten zur zeitlichen Dichteänderung.

vor 2 Monaten

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

Ein neuartiges, prinzipienbasiertes, diskriminatives Optimierungsframework für Nebenbedingungen vermeidet Verzerrungen durch den Schwierigkeitsgrad und Instabilität beim Training.

vor 2 Monaten

FOA-Attack, Ein Framework Für Gezielte, Migrationsbasierte Angriffe.

Durch die gemeinsame Ausrichtung globaler und lokaler Merkmale können adversarieller Beispiele effektiv auf die Zielmerkmalsverteilung ausgerichtet und die Übertragbarkeit verbessert werden.

vor 2 Monaten

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

AEPO konzentriert sich auf das Ausbalancieren und Rationalisieren von Strategieerweiterungszweigen und Strategieaktualisierungen unter der Führung von Tool-Aufrufen mit hoher Entropie.

vor 2 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

ReinFlow, Ein Online-Framework Für Verstärktes Lernen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ReinFlow, Ein Online-Framework Für Verstärktes Lernen

Verwandt Wiki

SAC-Durchfluss

RewardMap, Ein Mehrstufiges Reinforcement-Learning-Framework

Fraktale Forensik

Gruppenvarianzstrategieoptimierung (GVPO)

NovaFlow, Ein Autonomes Betriebssystem

Normalisierter Raumzeitlicher Gradient (NSG)

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

FOA-Attack, Ein Framework Für Gezielte, Migrationsbasierte Angriffe.

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

ReinFlow, Ein Online-Framework Für Verstärktes Lernen

Verwandt Wiki

SAC-Durchfluss

RewardMap, Ein Mehrstufiges Reinforcement-Learning-Framework

Fraktale Forensik

Gruppenvarianzstrategieoptimierung (GVPO)

NovaFlow, Ein Autonomes Betriebssystem

Normalisierter Raumzeitlicher Gradient (NSG)

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

FOA-Attack, Ein Framework Für Gezielte, Migrationsbasierte Angriffe.

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Wiki

SAC-Durchfluss

RewardMap, Ein Mehrstufiges Reinforcement-Learning-Framework

Fraktale Forensik

Gruppenvarianzstrategieoptimierung (GVPO)

NovaFlow, Ein Autonomes Betriebssystem

Normalisierter Raumzeitlicher Gradient (NSG)

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

FOA-Attack, Ein Framework Für Gezielte, Migrationsbasierte Angriffe.

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)

Verwandt Wiki

SAC-Durchfluss

RewardMap, Ein Mehrstufiges Reinforcement-Learning-Framework

Fraktale Forensik

Gruppenvarianzstrategieoptimierung (GVPO)

NovaFlow, Ein Autonomes Betriebssystem

Normalisierter Raumzeitlicher Gradient (NSG)

Rahmenwerk Zur Diskriminativen Optimierung Von Nebenbedingungen (DisCO)

FOA-Attack, Ein Framework Für Gezielte, Migrationsbasierte Angriffe.

Strategieoptimierung Zur Ausbalancierung Der Agenten-Entropie (AEPO)