HyperAIHyperAI
vor 11 Tagen

Der übersehene Klassifikator bei der Mensch-Objekt-Interaktionserkennung

Ying Jin, Yinpeng Chen, Lijuan Wang, Jianfeng Wang, Pei Yu, Lin Liang, Jenq-Neng Hwang, Zicheng Liu
Der übersehene Klassifikator bei der Mensch-Objekt-Interaktionserkennung
Abstract

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) ist aufgrund zweier Faktoren herausfordernd: (1) erhebliche Klassenungleichgewichte und (2) die Notwendigkeit mehrerer Labels pro Bild. In dieser Arbeit zeigen wir, dass diese beiden Herausforderungen effektiv angegangen werden können, indem der Klassifikator verbessert wird, ohne die Grundarchitektur (Backbone) zu verändern. Erstens kodieren wir die semantischen Korrelationen zwischen Klassen in den Klassifikationskopf, indem wir die Gewichte mit Sprachembeddings von HOIs initialisieren. Dadurch wird die Leistung erheblich gesteigert, insbesondere für die Few-Shot-Untermenge. Zweitens schlagen wir eine neue Verlustfunktion namens LSE-Sign vor, um das Lernen mehrerer Labels auf einem langen-Schwanz-Datensatz zu verbessern. Unser einfacher, jedoch wirksamer Ansatz ermöglicht eine detektionsfreie HOI-Klassifikation und übertrifft die derzeitigen State-of-the-Art-Methoden, die Objektdetektion und menschliche Pose erfordern, deutlich. Darüber hinaus übertragen wir das Klassifikationsmodell auf die Instanz-Ebene der HOI-Erkennung, indem wir es mit einem kommerziell erhältlichen Objektdetektor verbinden. Wir erreichen dabei einen neuen State-of-the-Art ohne zusätzliche Feinabstimmung.

Der übersehene Klassifikator bei der Mensch-Objekt-Interaktionserkennung | Neueste Forschungsarbeiten | HyperAI