HyperAIHyperAI

Command Palette

Search for a command to run...

Peak-Return Greedy Slicing

Peak-Return Greedy Slicing (PRGS) ist ein algorithmisches Framework, das gemeinsam von Forschungsteams der Shandong-Universität, der Chinesischen Akademie der Wissenschaften, Li Auto, der Tsinghua-Universität und anderen Institutionen entwickelt wurde. Zugehörige Forschungsergebnisse wurden in [Name der Publikation fehlt] veröffentlicht. Peak-Return Greedy Slicing: Subtrajektorienauswahl für transformatorbasiertes Offline-RLEs wurde von der ICLR 2026 angenommen.

PRGS zielt darauf ab, die Fähigkeiten von Transformer-basierten Offline-Reinforcement-Learning-Modellen (Offline RL) zur Verknüpfung und Reorganisation von Lernerfahrungen durch explizite Trajektorienpartitionierung auf Zeitschrittebene signifikant zu verbessern. Um die Einschränkung bestehender Methoden zu beheben, die sich oft ausschließlich auf die vollständige Trajektorie und die finale Belohnung stützen und es dadurch erschweren, zwischen überlegenen und unterlegenen Segmenten innerhalb langer Trajektorien zu unterscheiden, verwendet dieses Framework drei Kernmechanismen (MMD-basierte Belohnungsschätzung, Greedy-Slicing-Policy und adaptive Verlaufsabschneidung), um hochwertige Teiltrajektorien für das Policy-Training auf Zeitschrittebene explizit zu partitionieren und zu extrahieren. Experimente zeigen, dass PRGS die Fähigkeit des Modells, hochbelohnende Erfahrungen zu verknüpfen, signifikant verbessert und im Vergleich zum ursprünglichen Basisalgorithmus in mehreren komplexen Umgebungs-Benchmarks eine durchschnittliche Leistungssteigerung von 15,81 TP3T erzielt.

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp