HyperAIHyperAI
vor 11 Tagen

ASFormer: Transformer für die Aktionssegmentierung

Fangqiu Yi, Hongyu Wen, Tingting Jiang
ASFormer: Transformer für die Aktionssegmentierung
Abstract

Algorithmen für die Aufgabe der Aktionssegmentierung verwenden typischerweise zeitliche Modelle, um vorherzusagen, welche Aktion in jedem Frame einer minutenlangen täglichen Aktivität stattfindet. Kürzliche Studien haben das Potenzial von Transformer zur Modellierung von Beziehungen zwischen Elementen sequenzieller Daten aufgezeigt. Bei der direkten Anwendung von Transformer auf die Aufgabe der Aktionssegmentierung bestehen jedoch mehrere gravierende Herausforderungen, darunter das Fehlen von induktiven Vorurteilen bei kleinen Trainingsdatensätzen, die Schwierigkeit bei der Verarbeitung langer Eingabesequenzen sowie die Beschränkung der Dekodarchitektur, zeitliche Beziehungen zwischen mehreren Aktionssegmenten zur Verbesserung der initialen Vorhersagen auszunutzen. Um diese Probleme zu adressieren, entwickeln wir ein effizientes, auf Transformer basierendes Modell für die Aktionssegmentierung, namens ASFormer, mit drei herausragenden Eigenschaften: (i) Wir integrieren explizit induktive Vorwissen über lokale Zusammenhänge, da Merkmale in der Regel eine hohe Lokalität aufweisen. Dadurch wird der Hypothesenraum in einem zuverlässigen Bereich eingeschränkt und unterstützt die Lernfähigkeit des Modells, eine geeignete Ziel-Funktion auch bei kleinen Trainingsdatensätzen zu erlernen. (ii) Wir verwenden ein vordefiniertes hierarchisches Repräsentationsmuster, das die effiziente Verarbeitung langer Eingabesequenzen ermöglicht. (iii) Wir entwerfen den Dekoder sorgfältig, um die initialen Vorhersagen des Encoders zu verfeinern. Umfangreiche Experimente auf drei öffentlichen Datensätzen belegen die Wirksamkeit unseres Ansatzes. Der Quellcode ist unter \url{https://github.com/ChinaYi/ASFormer} verfügbar.

ASFormer: Transformer für die Aktionssegmentierung | Neueste Forschungsarbeiten | HyperAI