Command Palette
Search for a command to run...
Strategie Der Mittleren Geschwindigkeit (MVP)
Die Mean Velocity Policy (MVP) wurde gemeinsam von Forschungsteams der Tsinghua-Universität (Fakultät für Fahrzeug- und Transportwesen und Fakultät für Künstliche Intelligenz), des BAIR (Baidu Research Laboratory for Artificial Intelligence) der University of California, Berkeley, und der Universität Hongkong entwickelt. Die Arbeit wurde 2026 als Konferenzbeitrag auf der International Conference on Learning Representations (ICLR 2026) veröffentlicht. Verwandte Forschungsergebnisse wurden in der Publikation „“ veröffentlicht.Mittelflussrichtlinie mit momentaner Geschwindigkeitsbeschränkung zur Generierung von Einzelmaßnahmen".
MVP ist eine neuartige generative Strategie für Reinforcement Learning, die durch die Modellierung eines „durchschnittlichen Geschwindigkeitsfelds“ die schnellste Generierung von Einzelschrittaktionen ermöglicht und so den Rechenaufwand für mehrstufiges Sampling vollständig eliminiert. Um die Herausforderung fehlender expliziter Randbedingungen im Modell zu bewältigen, führte das Forschungsteam „momentane Geschwindigkeitsbeschränkungen (IVC)“ ein, wodurch die Lerngenauigkeit und die Ausdrucksstärke der Strategie effektiv verbessert wurden. In der Praxis beschleunigt MVP das Training und die Inferenz signifikant (die durchschnittliche Inferenzzeit pro Einzelschritt beträgt nur 10,93 Millisekunden) und erzielt bei komplexen Robotermanipulationsaufgaben in Robomimic und OGBench eine herausragende durchschnittliche Erfolgsrate von 0,88 und setzt damit neue Maßstäbe in diesem Bereich.
KI mit KI entwickeln
Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.