DecAug: Erweiterung der HOI-Detektion durch Dekomposition

Die Erkennung von Mensch-Objekt-Interaktionen (Human-Object Interaction, HOI) erfordert eine große Menge an annotierten Daten. Aktuelle Algorithmen leiden unter unzureichenden Trainingsbeispielen und Klassenungleichgewichten innerhalb der Datensätze. Um die Dateneffizienz zu steigern, schlagen wir in diesem Artikel eine effiziente und wirksame Daten-Augmentierungsmethode namens DecAug für die HOI-Erkennung vor. Auf Basis unseres vorgeschlagenen Ähnlichkeitsmaßes für Objektzustände werden Objektmuster über verschiedene HOIs hinweg gemeinsam genutzt, um lokale Objektappearance-Features zu erweitern, ohne deren Zustand zu verändern. Darüber hinaus wird die räumliche Korrelation zwischen Menschen und Objekten mithilfe eines posegesteuerten Gaussischen Mischmodells auf andere sinnvolle Konfigurationen verschoben, wobei die Interaktionen erhalten bleiben. Experimente zeigen, dass unsere Methode bis zu 3,3 mAP und 1,6 mAP Verbesserungen auf den Datensätzen V-COCO und HICODET für zwei fortschrittliche Modelle erzielt. Insbesondere Interaktionen mit wenigen Trainingsbeispielen profitieren von einer besonders signifikanten Verbesserung. Unsere Methode lässt sich problemlos in verschiedene HOI-Erkennungsmodelle integrieren und verursacht nur vernachlässigbaren zusätzlichen Rechenaufwand. Der Quellcode wird öffentlich verfügbar gemacht.