Video-basierte Interaktionshotspots zwischen Mensch und Objekt

Das Erlernen der Interaktion mit Objekten ist ein wichtiger Schritt auf dem Weg zur verkörperten visuellen Intelligenz, aber bestehende Techniken leiden unter umfangreicher Überwachung oder Sensorkräften. Wir schlagen einen Ansatz vor, um "Hotspots" für mensch-objektbasierte Interaktionen direkt aus Videos zu lernen. Anstatt Affordances als eine manuell überwachte semantische Segmentierungsaufgabe zu behandeln, lernt unser Ansatz durch das Betrachten von Videos realen menschlichen Verhaltens und die Vorhersage zulässiger Aktionen. Gegeben ein neues Bild oder Video, inferiert unser Modell eine räumliche Hotspot-Karte, die anzeigt, wie ein Objekt bei einer potentiellen Interaktion manipuliert werden würde – auch wenn das Objekt derzeit ruht. Durch Ergebnisse sowohl mit Erst- als auch Drittperson-Videos zeigen wir den Wert der Verankerung von Affordances in realen Mensch-Objekt-Interaktionen. Nicht nur sind unsere schwach überwachten Hotspots mit stark überwachten Affordance-Methoden wettbewerbsfähig, sondern sie können auch die Interaktion mit neuen Objektkategorien vorhersagen.