HyperAIHyperAI
vor 16 Tagen

Ausbeutung der Vorteile der zweistufigen und einstufigen HOI-Detektion

Aixi Zhang, Yue Liao, Si Liu, Miao Lu, Yongliang Wang, Chen Gao, Xiaobo Li
Ausbeutung der Vorteile der zweistufigen und einstufigen HOI-Detektion
Abstract

Zwei-Stufen-Methoden haben mehrere Jahre lang die Detektion von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) dominiert. In letzter Zeit sind jedoch einstufige HOI-Detektionsmethoden zunehmend populär geworden. In diesem Artikel untersuchen wir die wesentlichen Vor- und Nachteile beider Ansätze. Ziel dieser Analyse ist es, die zentralen Schwächen der herkömmlichen zweistufigen Methoden – insbesondere die ungenaue Lokalisierung positiver interagierender Mensch-Objekt-Paare – sowie die Herausforderung einstufiger Ansätze, eine angemessene Balance im mehrfachen Lernprozess zwischen Objektdetektion und Interaktionsklassifikation zu finden, zu identifizieren. Daraus ergibt sich die zentrale Fragestellung: Wie kann man die Stärken beider Ansätze bewahren und ihre Schwächen vermeiden? Um dies zu erreichen, schlagen wir einen neuartigen einstufigen Rahmen vor, der die Detektion von Mensch-Objekt-Paaren und die Klassifikation von Interaktionen kaskadenartig entkoppelt. Genauer gesagt entwerfen wir zunächst einen Generator für Mensch-Objekt-Paare auf Basis eines state-of-the-art einstufigen HOI-Detektors, indem wir das Interaktionsklassifikationsmodul oder -head entfernen. Anschließend entwickeln wir einen relativ isolierten Interaktionsklassifikator, der jedes Mensch-Objekt-Paar klassifiziert. Die beiden kaskadenartig angeordneten Dekoder in unserem vorgeschlagenen Rahmen können jeweils sich auf eine spezifische Aufgabe – Detektion oder Interaktionsklassifikation – konzentrieren. Im Hinblick auf die konkrete Implementierung verwenden wir einen Transformer-basierten HOI-Detektor als Basismodell. Das neu eingeführte Entkoppelungsparadigma erreicht erheblich bessere Ergebnisse als bestehende Methoden, wobei eine signifikante relative Steigerung des mAP um 9,32 % auf dem HICO-Det-Datensatz erzielt wird. Der Quellcode ist unter https://github.com/YueLiao/CDN verfügbar.

Ausbeutung der Vorteile der zweistufigen und einstufigen HOI-Detektion | Neueste Forschungsarbeiten | HyperAI