Interaktives räumlich-zeitliches Token-Aufmerksamkeitsnetzwerk für die Erkennung allgemeiner interaktiver Aktionen auf Skelettbasis

Die Erkennung von interaktiven Aktionen spielt eine wichtige Rolle bei der Mensch-Roboter-Interaktion und -Kooperation. Vorherige Methoden verwenden späte Fusion und Ko-Aufmerksamkeitsmechanismen, um interaktive Beziehungen zu erfassen, was ihre Lernfähigkeit begrenzt oder sie ineffizient macht, wenn es darum geht, sich an mehrere interagierende Entitäten anzupassen. Unter der Annahme, dass die Priorwerte jeder Entität bereits bekannt sind, fehlen auch Bewertungen in einer allgemeineren Einstellung, die die Vielfalt der Subjekte berücksichtigt. Um diese Probleme zu lösen, schlagen wir ein Interaktives Räumlich-Zeitliches Token-Aufmerksamkeitsnetzwerk (ISTA-Net) vor, das räumliche, zeitliche und interaktive Beziehungen gleichzeitig modelliert. Insbesondere enthält unser Netzwerk einen Tokenizer zur Aufteilung von Interaktiven Räumlich-Zeitlichen Tokens (ISTs), einer einheitlichen Methode zur Darstellung von Bewegungen verschiedener Entitäten. Durch die Erweiterung der Entitätsdimension bieten ISTs bessere interaktive Darstellungen. Um in den drei Dimensionen der ISTs gemeinsam zu lernen, wurden Multi-Head-Selbst-Aufmerksamkeitsblöcke mit 3D-Faltungen entwickelt, um Korrelationen zwischen Tokens zu erfassen. Bei der Modellierung von Korrelationen ist eine strenge Ordnung der Entitäten in der Regel für die Erkennung interaktiver Aktionen irrelevant. Zu diesem Zweck wurde Entity Rearrangement (Entitätsanordnung) vorgeschlagen, um die Ordnung in ISTs für austauschbare Entitäten zu eliminieren. Ausführliche Experimente auf vier Datensätzen bestätigen die Effektivität des ISTA-Net durch Überlegenheit gegenüber den bislang besten Methoden. Unser Code ist öffentlich verfügbar unter https://github.com/Necolizer/ISTA-Net.