HyperAIHyperAI

Command Palette

Search for a command to run...

Cross-Enhancement Transformer für die Aktionssegmentierung

Jiahui Wang Zhenyou Wang Shanna Zhuang Hui Wang

Zusammenfassung

Temporale Faltungen haben sich als bevorzugtes Paradigma bei der Aktionssegmentierung etabliert, da sie durch Erhöhung der Anzahl der Faltungs-Schichten langfristige Rezeptionsfelder verbessern. Allerdings führen hohe Schichten zur Verlust von lokalen Informationen, die für die Frame-Erkennung erforderlich sind. Um dieses Problem zu lösen, wird in diesem Artikel eine neuartige Encoder-Decoder-Architektur vorgestellt, die als Cross-Enhancement Transformer bezeichnet wird. Unser Ansatz ermöglicht eine effektive Lernung der zeitlichen Strukturrepräsentation durch eine interaktive Selbst-Attention-Mechanismus. Die Faltungsergebnisse jeder Schicht im Encoder werden mit einer Reihe von Merkmalen im Decoder, die mittels Selbst-Attention generiert werden, verkettet. Dadurch werden lokale und globale Informationen gleichzeitig in einer Reihe von Aktionsframes genutzt. Zudem wird eine neue Verlustfunktion vorgeschlagen, die den Trainingsprozess verbessert, indem sie Übersegmentierungsfehler bestrafft. Experimente zeigen, dass unser Framework auf drei anspruchsvollen Datensätzen – 50Salads, Georgia Tech Egocentric Activities und der Breakfast-Datensatz – die derzeit beste Leistung erzielt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Cross-Enhancement Transformer für die Aktionssegmentierung | Paper | HyperAI