HyperAIHyperAI
vor 17 Tagen

DirecFormer: Ein gerichteter Aufmerksamkeitsansatz im Transformer für robusteres Aktionserkennen

Thanh-Dat Truong, Quoc-Huy Bui, Chi Nhan Duong, Han-Seok Seo, Son Lam Phung, Xin Li, Khoa Luu
DirecFormer: Ein gerichteter Aufmerksamkeitsansatz im Transformer für robusteres Aktionserkennen
Abstract

Die Anerkennung menschlicher Aktionen ist in letzter Zeit zu einem der beliebtesten Forschungsthemen in der Gemeinschaft der Computer Vision geworden. Verschiedene auf 3D-CNN basierende Methoden wurden vorgestellt, um sowohl die räumlichen als auch die zeitlichen Dimensionen bei der Anerkennung von Aktionen in Videos zu bewältigen und dabei konkurrenzfähige Ergebnisse zu erzielen. Dennoch leiden diese Ansätze unter grundlegenden Einschränkungen, wie etwa geringer Robustheit und Generalisierbarkeit – beispielsweise hinsichtlich der Frage, wie die zeitliche Reihenfolge der Videobilder die Erkennungsergebnisse beeinflusst. In dieser Arbeit wird ein neuartiger end-to-end-Transformer-basierter Rahmen namens Directed Attention (DirecFormer) für eine robuste Aktionserkennung vorgestellt. Die Methode verfolgt einen einfachen, aber innovativen Ansatz, um mittels Transformer-basierter Techniken die korrekte Reihenfolge sequenzieller Aktionen zu verstehen. Die Beiträge dieser Arbeit sind dreifach: Erstens führen wir das Problem der geordneten zeitlichen Lernprozesse in die Aktionserkennung ein. Zweitens stellen wir eine neue Directed Attention-Mechanismus vor, der dazu dient, menschliche Aktionen in der richtigen zeitlichen Reihenfolge zu erfassen und darauf zu fokussieren. Drittens integrieren wir eine bedingte Abhängigkeit in die Modellierung von Aktionsequenzen, die sowohl die Reihenfolge als auch die Klassen der Aktionen berücksichtigt. Der vorgeschlagene Ansatz erzielt konsistent Ergebnisse auf dem Stand der Technik (SOTA) im Vergleich zu jüngeren Methoden der Aktionserkennung auf drei etablierten, großskaligen Benchmarks: Jester, Kinetics-400 und Something-Something-V2.