HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle Affordance-Grundierung aus Demonstrationsvideos lernen

Hongchen Luo Wei Zhai Jing Zhang, Member, IEEE Yang Cao, Member, IEEE Dacheng Tao, Fellow, IEEE

Zusammenfassung

Die visuelle Affordanzerkennung (Visual Affordance Grounding) strebt danach, alle möglichen Interaktionsbereiche zwischen Menschen und Objekten in einem Bild oder Video zu segmentieren, was für viele Anwendungen wie Roboter Greifen und Aktionserkennung von Vorteil ist. Bestehende Methoden basieren jedoch hauptsächlich auf den Erscheinungsmerkmalen der Objekte zur Segmentierung jedes Bereichs des Bildes, was folgende zwei Probleme mit sich bringt: (i) es gibt mehrere mögliche Bereiche in einem Objekt, mit denen Menschen interagieren; und (ii) es gibt mehrere mögliche menschliche Interaktionen im gleichen Objektbereich. Um diese Probleme zu lösen, schlagen wir ein Hand-gestütztes Affordanzerkennungsnetzwerk (Hand-aided Affordance Grounding Network, HAGNet) vor, das die durch die Position und Aktion der Hand in Demonstrationsvideos bereitgestellten Hilfsinformationen nutzt, um die Mehrdeutigkeit zu beseitigen und die Interaktionsbereiche im Objekt besser zu lokalisieren. Insbesondere verfügt HAGNet über eine Dual-Branch-Struktur zur Verarbeitung von Demonstrationsvideos und Objektbildern. Für den Videobranch führen wir eine hand-gestützte Aufmerksamkeit ein, um den Bereich um die Hand in jedem Videobildrahmen zu verstärken und dann das LSTM-Netzwerk zur Aggregation der Aktionsmerkmale zu verwenden. Für den Objektbranch integrieren wir ein semantisches Erweiterungsmodul (Semantic Enhancement Module, SEM), um das Netzwerk dazu anzuregen, sich auf verschiedene Teile des Objekts je nach Aktionsklasse zu konzentrieren und nutzen einen Destillationsverlust (distillation loss), um die Ausgabe-Merkmale des Objektbranches mit denen des Videobranches auszurichten und Wissen vom Videobranch auf den Objektbranch zu übertragen. Quantitative und qualitative Bewertungen an zwei anspruchsvollen Datensätzen zeigen, dass unsere Methode erstklassige Ergebnisse für die Affordanzerkennung erzielt hat. Der Quellcode wird der Öffentlichkeit zugänglich gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp