HyperAIHyperAI

Command Palette

Search for a command to run...

Unüberwachtes Lernen aus erzählten Anweisungsvideos

Jean-Baptiste Alayrac* † Piotr Bojanowski* Nishant Agrawal * ‡ Josef Sivic* Ivan Laptev* Simon Lacoste-Julien†

Zusammenfassung

Wir befassen uns mit dem Problem, die Hauptschritte zur Ausführung einer bestimmten Aufgabe, wie zum Beispiel dem Wechseln eines Autoreifens, automatisch aus einer Reihe von erläuterten Anweisungsvideos zu lernen. Die Beiträge dieser Arbeit sind dreifach. Erstens entwickeln wir einen neuen unsupervisierten Lernansatz, der die komplementäre Natur des Eingabevideos und der dazugehörigen Erklärungen nutzt. Die Methode löst zwei Clustering-Probleme, eines im Text und eines im Video, die nacheinander angewendet und durch gemeinsame Bedingungen verknüpft werden, um eine einheitliche Schrittfolge in beiden Modalitäten zu erhalten. Zweitens sammeln und annotieren wir einen neuen anspruchsvollen Datensatz von realen Anweisungsvideos aus dem Internet. Der Datensatz enthält etwa 800.000 Frames für fünf verschiedene Aufgaben, die komplexe Interaktionen zwischen Personen und Objekten umfassen und in verschiedenen Innen- und Außeneinstellungen aufgenommen wurden. Drittens zeigen wir experimentell, dass das vorgeschlagene Verfahren in unsupervisierter Weise die Hauptschritte zur Erreichung der Aufgabe automatisch entdecken kann und diese Schritte in den Eingabevideos lokalisieren kann.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp