HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen der Erkennung prozeduraler Aktivitäten mit entfernter Supervision

Xudong Lin Fabio Petroni Gedas Bertasius Marcus Rohrbach Shih-Fu Chang Lorenzo Torresani

Zusammenfassung

In diesem Artikel betrachten wir das Problem der Klassifizierung feinkörniger, mehrstufiger Aktivitäten (z. B. Zubereiten verschiedener Rezepte, Durchführung unterschiedlicher Heimwerkerarbeiten, Erstellung verschiedener Kunst- und Handarbeiten) anhand langer Videos, die bis zu mehreren Minuten dauern können. Die präzise Kategorisierung solcher Aktivitäten erfordert nicht nur die Erkennung der einzelnen Schritte, aus denen die Aufgabe besteht, sondern auch die Erfassung ihrer zeitlichen Abhängigkeiten. Dieses Problem unterscheidet sich deutlich von der traditionellen Aktionsklassifizierung, bei der Modelle typischerweise auf Videos optimiert werden, die nur wenige Sekunden lang sind und manuell so beschnitten wurden, dass sie einfache atomare Aktionen enthalten. Obwohl Schrittannotierungen die Trainierung von Modellen zur Erkennung der einzelnen Schritte prozeduraler Aktivitäten ermöglichen würden, enthalten bestehende große Datensätze in diesem Bereich aufgrund der enormen Kosten für die manuelle Annotation zeitlicher Grenzen in langen Videos derartige Segmentlabels nicht. Um dieses Problem zu lösen, schlagen wir vor, Schritte in Anleitungs-Videos automatisch zu identifizieren, indem wir die ferne Aufsicht einer textuellen Wissensbasis (wikiHow) nutzen, die detaillierte Beschreibungen der Schritte für die Durchführung einer Vielzahl komplexer Aktivitäten enthält. Unser Ansatz verwendet ein Sprachmodell, um geräuscherfüllte, automatisch transkribierte Sprache aus dem Video mit Schrittbeschreibungen in der Wissensbasis zu verknüpfen. Wir zeigen, dass Video-Modelle, die zur Erkennung dieser automatisch beschrifteten Schritte trainiert wurden (ohne manuelle Aufsicht), eine Darstellung erzeugen, die eine überlegene Generalisierungsleistung auf vier nachgeschalteten Aufgaben erzielt: Erkennung prozeduraler Aktivitäten, Schritt-Klassifizierung, Schritt-Vorhersage und Egocentric-Video-Klassifizierung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp