Demo2Vec: Reasoning von Objekt-Affordanzen aus Online-Videos
{Daniel Yang Te-Lin Wu Silvio Savarese Kuan Fang Joseph J. Lim}

Abstract
Das Beobachten von Expertendemonstrationen ist eine wichtige Methode, um bei Menschen und Robotern die Affordanzen unbekannter Objekte zu erschließen. In diesem Paper betrachten wir das Problem der Ableitung von Objektaffordanzen durch die Merkmalsembeddings von Demonstrationen. Wir entwickeln das Demo2Vec-Modell, das lernt, eingebettete Vektoren aus Demonstrationen zu extrahieren und auf einem Zielbild des gleichen Objekts sowohl die Interaktionsregion als auch die Aktion bezeichnet. Wir stellen die Online Product Review dataset for Affordance (OPRA) vor, indem wir diverse YouTube-Produktbewertungsvideos sammeln und annotieren. Unser Demo2Vec-Modell erreicht eine bessere Leistung als verschiedene rekurrente neuronale Netzwerk-Baselines auf dem gesammelten Datensatz.
Benchmarks
| Benchmark | Methodik | Metriken |
|---|---|---|
| video-to-image-affordance-grounding-on-opra | Demo2Vec | KLD: 2.34 Top-1 Action Accuracy: 40.79 |
| video-to-image-affordance-grounding-on-opra-1 | Demo2Vec | AUC-J: 0.85 KLD: 1.20 SIM: 0.48 |
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.