Lernen der Erkennung prozeduraler Aktivitäten mit entfernter Supervision

In diesem Artikel betrachten wir das Problem der Klassifizierung feinkörniger, mehrstufiger Aktivitäten (z. B. Zubereiten verschiedener Rezepte, Durchführung unterschiedlicher Heimwerkerarbeiten, Erstellung verschiedener Kunst- und Handarbeiten) anhand langer Videos, die bis zu mehreren Minuten dauern können. Die präzise Kategorisierung solcher Aktivitäten erfordert nicht nur die Erkennung der einzelnen Schritte, aus denen die Aufgabe besteht, sondern auch die Erfassung ihrer zeitlichen Abhängigkeiten. Dieses Problem unterscheidet sich deutlich von der traditionellen Aktionsklassifizierung, bei der Modelle typischerweise auf Videos optimiert werden, die nur wenige Sekunden lang sind und manuell so beschnitten wurden, dass sie einfache atomare Aktionen enthalten. Obwohl Schrittannotierungen die Trainierung von Modellen zur Erkennung der einzelnen Schritte prozeduraler Aktivitäten ermöglichen würden, enthalten bestehende große Datensätze in diesem Bereich aufgrund der enormen Kosten für die manuelle Annotation zeitlicher Grenzen in langen Videos derartige Segmentlabels nicht. Um dieses Problem zu lösen, schlagen wir vor, Schritte in Anleitungs-Videos automatisch zu identifizieren, indem wir die ferne Aufsicht einer textuellen Wissensbasis (wikiHow) nutzen, die detaillierte Beschreibungen der Schritte für die Durchführung einer Vielzahl komplexer Aktivitäten enthält. Unser Ansatz verwendet ein Sprachmodell, um geräuscherfüllte, automatisch transkribierte Sprache aus dem Video mit Schrittbeschreibungen in der Wissensbasis zu verknüpfen. Wir zeigen, dass Video-Modelle, die zur Erkennung dieser automatisch beschrifteten Schritte trainiert wurden (ohne manuelle Aufsicht), eine Darstellung erzeugen, die eine überlegene Generalisierungsleistung auf vier nachgeschalteten Aufgaben erzielt: Erkennung prozeduraler Aktivitäten, Schritt-Klassifizierung, Schritt-Vorhersage und Egocentric-Video-Klassifizierung.