Entdeckung von Konzepten der Mensch-Objekt-Interaktion durch selbstkompositionales Lernen

Ein umfassendes Verständnis der Mensch-Objekt-Interaktion (HOI) erfordert nicht nur die Erkennung eines kleinen Teils vordefinierter HOI-Konzepte (oder -Kategorien), sondern auch anderer plausibler HOI-Konzepte, während aktuelle Ansätze in der Regel versagen, einen großen Teil unbekannter HOI-Konzepte zu erforschen (d.h., unbekannte, aber plausible Kombinationen von Verben und Objekten). In dieser Arbeit 1) führen wir eine neue und anspruchsvolle Aufgabe für ein umfassendes Verständnis der HOI ein, die als HOI-Konzeptentdeckung bezeichnet wird; und 2) entwickeln wir ein selbstkompositionales Lernframework (SCL) für die Entdeckung von HOI-Konzepten. Insbesondere führen wir während des Trainings eine kontinuierlich aktualisierte Konzeptvertrauensmatrix ein: 1) Wir weisen Pseudo-Labels für alle zusammengesetzten HOI-Instanzen gemäß der Konzeptvertrauensmatrix für das Selbsttraining zu; und 2) wir aktualisieren die Konzeptvertrauensmatrix mit den Vorhersagen aller zusammengesetzten HOI-Instanzen. Somit ermöglicht die vorgeschlagene Methode das Lernen sowohl bekannter als auch unbekannter HOI-Konzepte. Wir führen umfangreiche Experimente auf mehreren gängigen HOI-Datensätzen durch, um die Effektivität der vorgeschlagenen Methode für die Entdeckung von HOI-Konzepten, die Erkennung von Objekt-affordances und die Detektion von HOIs zu demonstrieren. Zum Beispiel verbessert das vorgeschlagene selbstkompositionale Lernframework signifikant 1) die Entdeckung von HOI-Konzepten um über 10 % auf HICO-DET und um über 3 % auf V-COCO; 2) die Erkennung von Objekt-affordances um über 9 % mAP auf MS-COCO und HICO-DET; und 3) die Detektion unbekannter seltenster und nicht-seltenster HOIs relativ um über 30 % und 20 %. Der Code ist öffentlich verfügbar unter https://github.com/zhihou7/HOI-CL.