Datum

vor 3 Monaten

Organisation

Paper-URL

openreview.net

Tags

Verstärkendes Lernen

Die Mean Velocity Policy (MVP) wurde gemeinsam von Forschungsteams der Tsinghua-Universität (Fakultät für Fahrzeug- und Transportwesen und Fakultät für Künstliche Intelligenz), des Artificial Intelligence Research Laboratory (BAIR) der University of California, Berkeley, und der Universität Hongkong entwickelt. Die entsprechenden Forschungsergebnisse wurden in der Publikation „Mittelflussrichtlinie mit momentaner Geschwindigkeitsbeschränkung zur Generierung von Einzelmaßnahmen", wurde von der ICLR 2026 angenommen.

MVP ist eine neuartige generative Strategie für Reinforcement Learning, die durch die Modellierung eines „durchschnittlichen Geschwindigkeitsfelds“ die schnellste Generierung von Einzelschrittaktionen ermöglicht und so den Rechenaufwand für mehrstufiges Sampling vollständig eliminiert. Um die Herausforderung fehlender expliziter Randbedingungen im Modell zu bewältigen, führte das Forschungsteam „momentane Geschwindigkeitsbeschränkungen (IVC)“ ein, wodurch die Lerngenauigkeit und die Ausdrucksstärke der Strategie effektiv verbessert wurden. In der Praxis beschleunigt MVP das Training und die Inferenz signifikant (die durchschnittliche Inferenzzeit pro Einzelschritt beträgt nur 10,93 Millisekunden) und erzielt bei komplexen Robotermanipulationsaufgaben in Robomimic und OGBench eine herausragende durchschnittliche Erfolgsrate von 0,88 und setzt damit neue Maßstäbe in diesem Bereich.

Verwandt Wiki

Weltaktionsmodell WAM

WAM ist eine neue KI-Grundlagenmodellarchitektur für die Bereiche verkörperte Intelligenz und Robotik.

vor 2 Monaten

Peak-Return Greedy Slicing

PRGS verbessert die Fähigkeit von Offline-Reinforcement-Learning-Modellen, hochbelohnende Erfahrungen miteinander zu verknüpfen, erheblich.

vor 3 Monaten

Theorie Des Raumes

Die Raumtheorie bezeichnet den Rahmen für die Fähigkeit eines intelligenten Agenten, räumliche Vorstellungen in einer Umgebung mit unvollständigen Informationen durch aktive Erkundung zu konstruieren, zu aktualisieren und zu nutzen.

vor 3 Monaten

Dichter Retriever

Die dichte Suchmaschine ist dafür verantwortlich, aus einer riesigen Dokumentenbibliothek schnell die für die Suchanfrage relevantesten Abschnitte zu finden und ist die zentrale Grundlage des Systems zur Generierung von Suchverbesserungen.

vor 3 Monaten

Lernen Während Der Implementierung

LWD ist ein auf Flottenebene anwendbares Offline-zu-Online-Reinforcement-Learning-Framework, das es Allzweckrobotern ermöglicht, kontinuierlich Erfahrungen zu sammeln und eine Selbstentwicklung ihrer Strategien zu erreichen.

vor 2 Monaten

Geführte Gedankenverstärkung

GTR kann das Modelldenken in komplexen visuellen Umgebungen steuern und einen „Zusammenbruch des Gehirns“ verhindern.

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

Datum

vor 3 Monaten

Organisation

Paper-URL

openreview.net

Verwandt Wiki

Weltaktionsmodell WAM

WAM ist eine neue KI-Grundlagenmodellarchitektur für die Bereiche verkörperte Intelligenz und Robotik.

vor 2 Monaten

Peak-Return Greedy Slicing

PRGS verbessert die Fähigkeit von Offline-Reinforcement-Learning-Modellen, hochbelohnende Erfahrungen miteinander zu verknüpfen, erheblich.

vor 3 Monaten

Geführte Gedankenverstärkung

GTR kann das Modelldenken in komplexen visuellen Umgebungen steuern und einen „Zusammenbruch des Gehirns“ verhindern.

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Strategie Der Mittleren Geschwindigkeit (MVP)

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Strategie Der Mittleren Geschwindigkeit (MVP)

Verwandt Wiki

Weltaktionsmodell WAM

Peak-Return Greedy Slicing

Theorie Des Raumes

Dichter Retriever

Lernen Während Der Implementierung

Geführte Gedankenverstärkung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Strategie Der Mittleren Geschwindigkeit (MVP)

Verwandt Wiki

Weltaktionsmodell WAM

Peak-Return Greedy Slicing

Theorie Des Raumes

Dichter Retriever

Lernen Während Der Implementierung

Geführte Gedankenverstärkung

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Wiki

Weltaktionsmodell WAM

Peak-Return Greedy Slicing

Theorie Des Raumes

Dichter Retriever

Lernen Während Der Implementierung

Geführte Gedankenverstärkung

Verwandt Wiki

Weltaktionsmodell WAM

Peak-Return Greedy Slicing

Theorie Des Raumes

Dichter Retriever

Lernen Während Der Implementierung

Geführte Gedankenverstärkung