Masked Visual Pre-training für Motorsteuerung

Diese Arbeit zeigt, dass selbstüberwachtes visuelles Vortrainieren anhand realer Weltbilder effektiv ist, um motorische Steuerungsaufgaben direkt aus Pixeln zu lernen. Zunächst trainieren wir die visuellen Darstellungen mittels maskiertem Modellieren natürlicher Bilder. Anschließend fixieren wir den visuellen Encoder und trainieren darüber hinaus neuronale Netzwerk-Controller mittels Verstärkungslernen. Wir führen keine aufgabe-spezifische Feinabstimmung des Encoders durch; die gleichen visuellen Darstellungen werden für alle motorischen Steuerungsaufgaben verwendet. Soweit uns bekannt ist, handelt es sich hierbei um das erste selbstüberwachte Modell, das reale Weltbilder in großem Maßstab für motorische Steuerung nutzt. Um den Fortschritt beim Lernen aus Pixeln zu beschleunigen, präsentieren wir eine Benchmark-Suite handgestalteter Aufgaben, die sich in Bewegungen, Szenen und Robotern unterscheiden. Ohne auf Labels, Zustandsschätzung oder Expertendemonstrationen zurückzugreifen, übertrifft unser Ansatz suprervisierte Encoder konsistent um bis zu 80 Prozentpunkte im absoluten Erfolgsrate, manchmal sogar die Leistung eines Orakels mit perfektem Zustandszugriff. Außerdem stellen wir fest, dass Bilder aus der realen Welt – beispielsweise aus YouTube oder Egocentric-Videos – bessere visuelle Darstellungen für verschiedene Manipulationsaufgaben liefern als Bilder aus ImageNet.