HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen latenter Handlungs-Weltmodelle in der Wildnis

Quentin Garrido Tushar Nagarajan Basile Terver Nicolas Ballas Yann LeCun Michael Rabbat

Abstract

Agenten, die in der realen Welt reasoning und Planung leisten sollen, müssen in der Lage sein, die Konsequenzen ihrer Aktionen vorherzusagen. Obwohl Weltmodelle über diese Fähigkeit verfügen, erfordern sie meist Aktionsetiketten, die sich in großem Maßstab schwer erheben lassen. Dies motiviert die Entwicklung latenter Aktionmodelle, die einen Aktionraum allein aus Videos lernen können. Unsere Arbeit befasst sich mit der Lernbarkeit latenter Aktionen in Weltmodellen an unstrukturierten, realen Videos – wodurch der Anwendungsbereich bestehender Arbeiten, die sich auf einfache Roboter-Simulationen, Videospiele oder Manipulationsdaten beschränken, erweitert wird. Während dies die Erfassung komplexerer Aktionen ermöglicht, bringt es auch Herausforderungen mit sich, die aus der Vielfalt der Videos resultieren, wie beispielsweise Umgebungsrauschen oder der Fehlen einer gemeinsamen Körperlichkeit zwischen den Videos. Um einige dieser Herausforderungen zu bewältigen, diskutieren wir Eigenschaften, die Aktionen erfüllen sollten, sowie relevante architektonische Entscheidungen und Evaluierungsmethoden. Wir stellen fest, dass kontinuierliche, aber eingeschränkte latente Aktionen in der Lage sind, die Komplexität von Aktionen in unstrukturierten Videos adäquat zu erfassen – etwas, das bei üblichen Vektorquantisierungsansätzen nicht gelingt. So zeigen wir beispielsweise, dass Umweltveränderungen, die durch Agenten wie Menschen verursacht werden (z. B. das Betreten eines Raums), über verschiedene Videos hinweg übertragbar sind. Dies unterstreicht die Fähigkeit, Aktionen zu lernen, die spezifisch für unstrukturierte Videos sind. Aufgrund des Fehlens einer gemeinsamen Körperlichkeit zwischen den Videos können wir hauptsächlich latente Aktionen erlernen, die sich räumlich relativ zur Kamera lokalisieren. Dennoch gelingt es uns, einen Controller zu trainieren, der bekannte Aktionen in latente Aktionen abbildet. Dadurch können latente Aktionen als universelle Schnittstelle genutzt werden, um Planungsaufgaben mit unserem Weltmodell zu lösen – mit vergleichbarer Leistung wie bei actionbedingten Baselines. Unsere Analysen und Experimente stellen einen Schritt hin zur Skalierung latenter Aktionmodelle auf die reale Welt dar.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp