HyperAIHyperAI
vor 9 Tagen

Antizipative Feature-Fusion-Transformer für multimodale Aktionsvorhersage

Zeyun Zhong, David Schneider, Michael Voit, Rainer Stiefelhagen, Jürgen Beyerer
Antizipative Feature-Fusion-Transformer für multimodale Aktionsvorhersage
Abstract

Obwohl die Vorhersage menschlichen Verhaltens grundsätzlich eine mehrmodale Aufgabe ist, nutzen derzeitige state-of-the-art-Methoden auf bekannten Datensätzen zur Verhaltensvorhersage diese Daten durch Anwendung von Ensemble-Verfahren und Durchschnittsbildung der Scores mehrerer unimodaler Vorhersage-Netzwerke. In dieser Arbeit stellen wir transformerbasierte Modalfusionsverfahren vor, die mehrmodale Daten bereits in einem frühen Stadium integrieren. Unser Anticipative Feature Fusion Transformer (AFFT) erweist sich als überlegen gegenüber gängigen Score-Fusionsansätzen und erreicht state-of-the-art-Ergebnisse, die die bisherigen Methoden auf den Datensätzen EpicKitchens-100 und EGTEA Gaze+ übertreffen. Unser Modell ist leicht erweiterbar und ermöglicht die Hinzufügung neuer Modalitäten ohne Änderung der Architektur. Folglich haben wir auf EpicKitchens-100 Audio-Features extrahiert, die wir der gängigen Menge an Features in der Forschungsgemeinschaft hinzugefügt haben.