HyperAIHyperAI

Command Palette

Search for a command to run...

Affordanz-Grundierung von Demonstrationsvideos auf Zielbilder

Joya Chen Difei Gao Kevin Qinghong Lin Mike Zheng Shou

Zusammenfassung

Menschen sind darin hervorragend, aus Expertendemonstrationen zu lernen und ihre eigenen Probleme zu lösen. Um intelligente Roboter und Assistenten, wie z.B. AR-Brillen, mit dieser Fähigkeit auszustatten, ist es entscheidend, menschliche Handinteraktionen (d.h. Affordanzen) aus Demonstrationsvideos abzuleiten und sie auf ein Zielbild wie die Sicht der Benutzer-AR-Brille anzuwenden. Die Aufgabe des Video-zu-Bild-Affordanzen-Abgleichs ist herausfordernd aufgrund von (1) der Notwendigkeit, feingranulare Affordanzen vorherzusagen, und (2) den begrenzten Trainingsdaten, die die Unterschiede zwischen Videos und Bildern unzureichend abdecken und den Abgleich negativ beeinflussen. Um diese Herausforderungen zu bewältigen, schlagen wir den Affordance Transformer (Afformer) vor, der einen feingranularen transformer-basierten Decoder hat, der den Affordanzen-Abgleich schrittweise verfeinert. Darüber hinaus führen wir Mask Affordance Hand (MaskAHand) ein, eine selbstüberwachte Vortrainierungstechnik zur Synthese von Videobild-Daten und zur Simulation von Kontextänderungen, die den Affordanzen-Abgleich bei Unterschieden zwischen Videos und Bildern verbessert. Der Afformer mit MaskAHand-Vortrainierung erzielt Stand-of-the-Art-Ergebnisse in mehreren Benchmarks, darunter eine beträchtliche Verbesserung um 37 % im OPRA-Datensatz. Der Code ist unter https://github.com/showlab/afformer verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Affordanz-Grundierung von Demonstrationsvideos auf Zielbilder | Paper | HyperAI