Visuelle Affordance-Grundierung aus Demonstrationsvideos lernen

Die visuelle Affordanzerkennung (Visual Affordance Grounding) strebt danach, alle möglichen Interaktionsbereiche zwischen Menschen und Objekten in einem Bild oder Video zu segmentieren, was für viele Anwendungen wie Roboter Greifen und Aktionserkennung von Vorteil ist. Bestehende Methoden basieren jedoch hauptsächlich auf den Erscheinungsmerkmalen der Objekte zur Segmentierung jedes Bereichs des Bildes, was folgende zwei Probleme mit sich bringt: (i) es gibt mehrere mögliche Bereiche in einem Objekt, mit denen Menschen interagieren; und (ii) es gibt mehrere mögliche menschliche Interaktionen im gleichen Objektbereich. Um diese Probleme zu lösen, schlagen wir ein Hand-gestütztes Affordanzerkennungsnetzwerk (Hand-aided Affordance Grounding Network, HAGNet) vor, das die durch die Position und Aktion der Hand in Demonstrationsvideos bereitgestellten Hilfsinformationen nutzt, um die Mehrdeutigkeit zu beseitigen und die Interaktionsbereiche im Objekt besser zu lokalisieren. Insbesondere verfügt HAGNet über eine Dual-Branch-Struktur zur Verarbeitung von Demonstrationsvideos und Objektbildern. Für den Videobranch führen wir eine hand-gestützte Aufmerksamkeit ein, um den Bereich um die Hand in jedem Videobildrahmen zu verstärken und dann das LSTM-Netzwerk zur Aggregation der Aktionsmerkmale zu verwenden. Für den Objektbranch integrieren wir ein semantisches Erweiterungsmodul (Semantic Enhancement Module, SEM), um das Netzwerk dazu anzuregen, sich auf verschiedene Teile des Objekts je nach Aktionsklasse zu konzentrieren und nutzen einen Destillationsverlust (distillation loss), um die Ausgabe-Merkmale des Objektbranches mit denen des Videobranches auszurichten und Wissen vom Videobranch auf den Objektbranch zu übertragen. Quantitative und qualitative Bewertungen an zwei anspruchsvollen Datensätzen zeigen, dass unsere Methode erstklassige Ergebnisse für die Affordanzerkennung erzielt hat. Der Quellcode wird der Öffentlichkeit zugänglich gemacht.