Cross-Enhancement Transformer für die Aktionssegmentierung

Temporale Faltungen haben sich als bevorzugtes Paradigma bei der Aktionssegmentierung etabliert, da sie durch Erhöhung der Anzahl der Faltungs-Schichten langfristige Rezeptionsfelder verbessern. Allerdings führen hohe Schichten zur Verlust von lokalen Informationen, die für die Frame-Erkennung erforderlich sind. Um dieses Problem zu lösen, wird in diesem Artikel eine neuartige Encoder-Decoder-Architektur vorgestellt, die als Cross-Enhancement Transformer bezeichnet wird. Unser Ansatz ermöglicht eine effektive Lernung der zeitlichen Strukturrepräsentation durch eine interaktive Selbst-Attention-Mechanismus. Die Faltungsergebnisse jeder Schicht im Encoder werden mit einer Reihe von Merkmalen im Decoder, die mittels Selbst-Attention generiert werden, verkettet. Dadurch werden lokale und globale Informationen gleichzeitig in einer Reihe von Aktionsframes genutzt. Zudem wird eine neue Verlustfunktion vorgeschlagen, die den Trainingsprozess verbessert, indem sie Übersegmentierungsfehler bestrafft. Experimente zeigen, dass unser Framework auf drei anspruchsvollen Datensätzen – 50Salads, Georgia Tech Egocentric Activities und der Breakfast-Datensatz – die derzeit beste Leistung erzielt.