Unified Fully and Timestamp Supervised Temporal Action Segmentation via Sequence to Sequence Translation

Diese Arbeit stellt einen einheitlichen Rahmen für die Video-Action-Segmentierung mittels Sequenz-zu-Sequenz-(seq2seq)-Übersetzung in einer vollständig und zeitstempelbasiert überwachten Umgebung vor. Im Gegensatz zu aktuellen state-of-the-art-Methoden auf Frame-Ebene betrachten wir die Action-Segmentierung als ein seq2seq-Übersetzungsproblem, d. h. die Abbildung einer Sequenz von Videoframes auf eine Sequenz von Action-Segmenten. Unser vorgeschlagenes Verfahren beinhaltet eine Reihe von Modifikationen und zusätzlicher Verlustfunktionen am Standard-Transformer-seq2seq-Übersetzungsmodell, um langen Eingabesequenzen gegenüber kurzen Ausgabesequenzen und vergleichsweise wenigen Videos zu begegnen. Wir integrieren ein zusätzliches Überwachungssignal für den Encoder über eine frameweise Verlustfunktion und schlagen einen separaten Alignment-Decoder zur impliziten Vorhersage der Dauer vor. Schließlich erweitern wir unseren Rahmenwerk für den zeitstempelbasierten Überwachungsansatz mittels unseres vorgeschlagenen konstruierten k-Medoids-Algorithmus zur Generierung von Pseudosegmentierungen. Unser vorgeschlagener Rahmen zeigt konsistente Leistungen sowohl in der vollständig als auch in der zeitstempelbasierten Überwachung und erreicht oder übertrifft den Stand der Technik auf mehreren Datensätzen. Der Quellcode ist öffentlich unter https://github.com/boschresearch/UVAST verfügbar.