B2C-AFM: Bi-Directional Co-Temporal and Cross-Spatial Attention Fusion Model für die Menschliche Aktionserkennung
Die Erkennung menschlicher Aktionen stellt eine treibende Kraft vieler Anwendungen im Bereich der Mensch-Computer-Interaktion dar. Die meisten aktuellen Forschungsarbeiten konzentrieren sich darauf, die Generalisierbarkeit von Modellen durch die Integration mehrerer homogener Modalitäten zu verbessern, darunter RGB-Bilder, menschliche Pose und optische Flüsse. Zudem wurde bestätigt, dass kontextuelle Interaktionen sowie kontextunabhängige Gebärdensprachen von der Szenenkategorie und dem Menschen selbst abhängen. Versuche, Erscheinungsbilder und menschliche Poses zu integrieren, haben bereits positive Ergebnisse erzielt. Allerdings leiden bestehende Methoden aufgrund von räumlichen Fehlern in den menschlichen Poses und zeitlichen Ambiguitäten unter geringer Skalierbarkeit, begrenzter Robustheit und suboptimalen Modellen. In dieser Arbeit, inspiriert von der Annahme, dass verschiedene Modalitäten zeitliche Konsistenz und räumliche Ergänzung aufweisen können, präsentieren wir ein neuartiges bidirektionales, ko-temporales und kreuzräumliches Aufmerksamkeits-Fusionsmodell (B2C-AFM). Unser Modell zeichnet sich durch eine asynchrone Fusionsstrategie mehrerer Modalitäten entlang zeitlicher und räumlicher Dimensionen aus. Darüber hinaus werden neuartige, explizite, bewegungsorientierte Pose-Repräsentationen, sogenannte „Limb Flow Fields“ (Lff), eingeführt, um die zeitliche Ambiguität bezüglich menschlicher Poses zu verringern. Experimente auf öffentlich verfügbaren Datensätzen bestätigen unsere Beiträge. Umfangreiche Ablationsstudien zeigen experimentell, dass B2C-AFM robuste Leistung sowohl bei bekannten als auch bei unbekannten menschlichen Aktionen erzielt. Der Quellcode ist unter https://github.com/gftww/B2C.git verfügbar.