HyperAIHyperAI
vor 11 Tagen

Lernen langfristiger visueller Dynamik mit Region Proposal Interaction Networks

Haozhi Qi, Xiaolong Wang, Deepak Pathak, Yi Ma, Jitendra Malik
Lernen langfristiger visueller Dynamik mit Region Proposal Interaction Networks
Abstract

Das Lernen von Langzeit-Dynamikmodellen ist entscheidend für das Verständnis physikalischer Alltagskenntnisse. Die meisten bestehenden Ansätze zum Lernen von Dynamiken aus visuellen Eingaben umgehen Langzeitvorhersagen, indem sie auf schnelle Neuplanung mit kurzfristigen Modellen zurückgreifen. Dies erfordert nicht nur eine äußerst hohe Genauigkeit dieser Modelle, sondern beschränkt sie zudem auf Aufgaben, bei denen ein Agent kontinuierlich Rückmeldung erhalten und in jedem Schritt handeln kann, bis die Aufgabe abgeschlossen ist. In diesem Paper zielen wir darauf ab, die Ideen aus erfolgreichen Ansätzen in der visuellen Erkennung zu nutzen, um Objektrepräsentationen zu entwickeln, die langfristige Wechselwirkungen zwischen Objekten sowie zwischen Objekten und ihrer Umgebung erfassen können. Dazu stellen wir Region Proposal Interaction Networks (RPIN) vor, die die Trajektorien jedes Objekts in einem latenten Region-Proposal-Funktionsraum modellieren. Dank der einfachen, jedoch effektiven Objektrepräsentation übertrifft unser Ansatz bestehende Methoden deutlich sowohl hinsichtlich der Vorhersagegenauigkeit als auch hinsichtlich der Fähigkeit, für nachgelagerte Aufgaben zu planen, und zeigt zudem eine gute Generalisierungsfähigkeit auf neuen Umgebungen. Der Quellcode, vortrainierte Modelle und weitere Visualisierungsergebnisse sind unter https://haozhi.io/RPIN verfügbar.

Lernen langfristiger visueller Dynamik mit Region Proposal Interaction Networks | Neueste Forschungsarbeiten | HyperAI