Schwach überwachtes Lernen über Aufgaben hinweg aus Anleitungs-Videos

In diesem Artikel untersuchen wir das Lernen visueller Modelle für die Schritte gewöhnlicher Aufgaben unter schwacher Supervision mittels instruktiver Erzählungen und einer geordneten Liste von Schritten anstelle starker Supervision durch zeitliche Annotationen. Im Zentrum unseres Ansatzes steht die Beobachtung, dass das schwach überwachte Lernen erleichtert werden kann, wenn ein Modell Komponenten bei der Lernung verschiedener Schritte gemeinsam nutzt: „Ei gießen“ sollte gemeinsam mit anderen Aufgaben, die „Gießen“ und „Ei“ beinhalten, trainiert werden. Wir formalisieren dies in einem Komponentenmodell zur Schritt-Erkennung und einem schwach überwachten Lernframework, das dieses Modell unter zeitlichen Constraints aus Erzählungen und der Schrittliste lernen kann. Da frühere Datensätze eine systematische Untersuchung des Komponenten-Teilens nicht zulassen, haben wir zusätzlich ein neues Datenset, CrossTask, zusammengestellt, das der Bewertung von Cross-Task-Teilung dient. Unsere Experimente zeigen, dass das Teilen über Aufgaben hinweg die Leistung verbessert, insbesondere wenn es auf Komponentenebene erfolgt, und dass unser Komponentenmodell neue, bisher nicht gesehene Aufgaben aufgrund seiner Kompositionsfähigkeit verarbeiten kann.