Affordanz-Grundierung von Demonstrationsvideos auf Zielbilder

Menschen sind darin hervorragend, aus Expertendemonstrationen zu lernen und ihre eigenen Probleme zu lösen. Um intelligente Roboter und Assistenten, wie z.B. AR-Brillen, mit dieser Fähigkeit auszustatten, ist es entscheidend, menschliche Handinteraktionen (d.h. Affordanzen) aus Demonstrationsvideos abzuleiten und sie auf ein Zielbild wie die Sicht der Benutzer-AR-Brille anzuwenden. Die Aufgabe des Video-zu-Bild-Affordanzen-Abgleichs ist herausfordernd aufgrund von (1) der Notwendigkeit, feingranulare Affordanzen vorherzusagen, und (2) den begrenzten Trainingsdaten, die die Unterschiede zwischen Videos und Bildern unzureichend abdecken und den Abgleich negativ beeinflussen. Um diese Herausforderungen zu bewältigen, schlagen wir den Affordance Transformer (Afformer) vor, der einen feingranularen transformer-basierten Decoder hat, der den Affordanzen-Abgleich schrittweise verfeinert. Darüber hinaus führen wir Mask Affordance Hand (MaskAHand) ein, eine selbstüberwachte Vortrainierungstechnik zur Synthese von Videobild-Daten und zur Simulation von Kontextänderungen, die den Affordanzen-Abgleich bei Unterschieden zwischen Videos und Bildern verbessert. Der Afformer mit MaskAHand-Vortrainierung erzielt Stand-of-the-Art-Ergebnisse in mehreren Benchmarks, darunter eine beträchtliche Verbesserung um 37 % im OPRA-Datensatz. Der Code ist unter https://github.com/showlab/afformer verfügbar.