Unüberwachtes Lernen aus erzählten Anweisungsvideos

Wir befassen uns mit dem Problem, die Hauptschritte zur Ausführung einer bestimmten Aufgabe, wie zum Beispiel dem Wechseln eines Autoreifens, automatisch aus einer Reihe von erläuterten Anweisungsvideos zu lernen. Die Beiträge dieser Arbeit sind dreifach. Erstens entwickeln wir einen neuen unsupervisierten Lernansatz, der die komplementäre Natur des Eingabevideos und der dazugehörigen Erklärungen nutzt. Die Methode löst zwei Clustering-Probleme, eines im Text und eines im Video, die nacheinander angewendet und durch gemeinsame Bedingungen verknüpft werden, um eine einheitliche Schrittfolge in beiden Modalitäten zu erhalten. Zweitens sammeln und annotieren wir einen neuen anspruchsvollen Datensatz von realen Anweisungsvideos aus dem Internet. Der Datensatz enthält etwa 800.000 Frames für fünf verschiedene Aufgaben, die komplexe Interaktionen zwischen Personen und Objekten umfassen und in verschiedenen Innen- und Außeneinstellungen aufgenommen wurden. Drittens zeigen wir experimentell, dass das vorgeschlagene Verfahren in unsupervisierter Weise die Hauptschritte zur Erreichung der Aufgabe automatisch entdecken kann und diese Schritte in den Eingabevideos lokalisieren kann.