vor 16 Tagen

PaStaNet: Ein Schritt hin zum menschlichen Aktivitäts-Wissens-Engine

Yong-Lu Li, Liang Xu, Xinpeng Liu, Xijie Huang, Yue Xu, Shiyi Wang, Hao-Shu Fang, Ze Ma, Mingyang Chen, Cewu Lu

Abstract

Bekannte Methoden zur Aktivitätsverstehens basierend auf Bildern setzen hauptsächlich eine direkte Abbildung von Bildern auf Aktivitätskonzepte ein, was aufgrund der erheblichen Semantiklücke zu Leistungsgrenzen führen kann. Um diesem Problem entgegenzuwirken, schlagen wir einen neuen Ansatz vor: Zunächst werden menschliche Körperteilzustände (Human Body Part States, PaSta) abgeleitet und anschließend auf Basis dieser part-level Semantik die Aktivitäten inferiert. PaSta sind feinkörnige, aktionssemantische Token, beispielsweise <Hand, halten, etwas>, die sich zu Aktivitäten zusammensetzen lassen und uns Schritt für Schritt der Entwicklung einer menschlichen Aktivitäts-Wissensmaschine näherbringen. Um das volle Potenzial von PaSta voll auszuschöpfen, haben wir eine großskalige Wissensbasis namens PaStaNet aufgebaut, die über 7 Millionen PaSta-Anmerkungen enthält. Dazu wurden zwei Modelle vorgestellt: Erstens entwickeln wir ein Modell namens Activity2Vec, das PaSta-Features extrahiert, die als allgemeine Darstellungen für verschiedene Aktivitäten dienen sollen. Zweitens verwenden wir eine auf PaSta basierende Schlussfolgerungsmethode zur Aktivitätsinferenz. Unterstützt durch PaStaNet erzielt unser Ansatz signifikante Verbesserungen, beispielsweise 6,4 und 13,9 mAP auf den vollständigen und one-shot-Teilmengen von HICO im überwachten Lernen sowie 3,2 und 4,2 mAP auf V-COCO und bildbasiertem AVA im Transferlernen. Code und Daten sind unter http://hake-mvig.cn/ verfügbar.