Progress-Aware Online Action Segmentation für egozentrische prozedurale Task-Videos

Wir behandeln das Problem der Online-Aktionssegmentierung für egozentrische Prozedurvideos. Während frühere Studien sich hauptsächlich auf die Offline-Aktionssegmentierung konzentrierten, bei der gesamte Videos sowohl zum Training als auch zur Inferenz zur Verfügung stehen, ist der Übergang zur Online-Aktionssegmentierung für praktische Anwendungen wie AR/VR-Aufgabenassistenten von entscheidender Bedeutung. Insbesondere führt die direkte Anwendung eines offline trainierten Modells auf die Online-Inferenz aufgrund der Inkonsistenz zwischen Training und Inferenz zu einer erheblichen Leistungsverschlechterung. Wir schlagen einen Framework für die Online-Aktionssegmentierung vor, indem wir zunächst bestehende Architekturen so modifizieren, dass sie kausal werden. Zweitens entwickeln wir ein neuartiges Modul zur Vorhersage der Aktionsfortschritts, das den Fortschritt laufender Aktionen dynamisch schätzt und diese Schätzungen nutzt, um die Vorhersagen der kausalen Aktionssegmentierung zu verfeinern. Drittens schlagen wir vor, Aufgabengraphen aus Trainingsvideos zu lernen und diese zur Erzielung glatter und prozedurkonsistenter Segmentierungen zu nutzen. Durch die Kombination von Fortschrittsvorhersage und Aufgabengraph mit der kausalen Aktionssegmentierung adressiert unser Framework effektiv Unsicherheiten in der Vorhersage und die Übersegmentierung bei der Online-Aktionssegmentierung und erreicht eine signifikante Verbesserung auf drei egozentrischen Datensätzen.