Zeitliche Aktionssegmentierung aus Zeitstempel-Supervision

Temporale Aktionssegmentierungsansätze haben in letzter Zeit erheblichen Erfolg erzielt. Die Annotation von Videos mit frame-weisen Labels zur Schulung solcher Modelle ist jedoch äußerst kostspielig und zeitaufwendig. Obwohl schwach überwachte Methoden, die ausschließlich auf geordneten Aktionslisten basieren, weniger Annotationsschritte erfordern, erreichen ihre Leistung weiterhin ein niedrigeres Niveau als vollständig überwachte Ansätze. In diesem Paper schlagen wir vor, Timestamp-Überwachung für die Aufgabe der temporalen Aktionssegmentierung einzusetzen. Timestamps erfordern eine vergleichbare Annotierungsschwere wie schwach überwachte Ansätze, bieten jedoch gleichzeitig ein präziseres Überwachungssignal. Um die Wirksamkeit der Timestamp-Überwachung zu demonstrieren, stellen wir einen Ansatz vor, mit dem ein Segmentierungsmodell ausschließlich anhand von Timestamp-Annotationen trainiert werden kann. Unser Ansatz nutzt die Modellausgabe und die annotierten Timestamps, um frame-weise Labels durch Erkennung von Aktionswechseln zu generieren. Darüber hinaus führen wir eine Vertrauensverlustfunktion ein, die sicherstellt, dass die vorhergesagten Wahrscheinlichkeiten monoton abnehmen, je weiter ein Frame von den Timestamps entfernt ist. Dadurch wird sichergestellt, dass während des Trainings nicht nur die markantesten Frames einer Aktion, sondern alle Frames einer Aktion erlernt werden. Die Evaluation an vier Datensätzen zeigt, dass Modelle, die mit Timestamp-Annotationen trainiert wurden, eine vergleichbare Leistung wie vollständig überwachte Ansätze erzielen.