Set-Supervised Action Learning in Procedural Task Videos via Pairwise Order Consistency

Wir behandeln das Problem des set-supervised Action Learning, dessen Ziel darin besteht, ein Action-Segmentation-Modell unter schwacher Supervision in Form von Mengen von Aktionen zu lernen, die in Trainingsvideos vorkommen. Unser zentrales Observieren ist, dass Videos innerhalb derselben Aufgabe eine ähnliche Reihenfolge von Aktionen aufweisen, die effektiv zur Lernung genutzt werden kann. Daher schlagen wir eine auf Aufmerksamkeit basierende Methode mit einer neuen Pairwise Ordering Consistency (POC)-Verlustfunktion vor, die dafür sorgt, dass für jedes gemeinsame Aktionenpaar in zwei Videos derselben Aufgabe die Aufmerksamkeitswerte der Aktionen eine ähnliche Reihenfolge aufweisen. Im Gegensatz zu bestehenden Sequenz-Alignment-Methoden, die Aktionen in Videos mit unterschiedlicher Reihenfolge ungenau ausrichten oder nicht zuverlässig zwischen stärker und schwächer konsistenten Ordnungen unterscheiden können, aligniert unsere POC-Verlustfunktion effizient Videos mit unterschiedlichen Aktionenreihenfolgen und ist differenzierbar, was eine end-to-end-Trainierung ermöglicht. Zudem vermeidet sie die zeitaufwendige Generierung von Pseudolabels, wie sie in früheren Arbeiten notwendig war. Unsere Methode lernt effizient sowohl die Aktionen als auch ihre zeitlichen Positionen, wodurch bestehende auf Aufmerksamkeit basierende Methoden zur Aktionsspektralisation erweitert werden – von der Lernung einer einzelnen Aktion pro Video hin zu mehreren Aktionen unter Verwendung unserer POC-Verlustfunktion zusammen mit video-level- und frame-level-Verlusten. Experimente an drei Datensätzen zeigen, dass unsere Methode die derzeit beste Leistung deutlich übertreffen kann. Außerdem zeigen wir, dass unsere Methode – mit einer geringfügigen Modifikation – effektiv auch das Transcript-supervised Action Learning Problem lösen kann, bei dem während des Trainings sowohl die Aktionen als auch deren Reihenfolge bekannt sind.