End-to-End Lernen visueller Repräsentationen aus unsortierten Anleitungsvideos

Die Annotation von Videos ist mühsam, teuer und nicht skaliierbar. Dennoch basieren viele leistungsfähige Videomodelle weiterhin auf manuell annotierten Daten. Mit der kürzlichen Einführung des HowTo100M-Datensatzes bieten erzählte Videos nun die Möglichkeit, Video-Darstellungen ohne manuelle Überwachung zu lernen. In dieser Arbeit schlagen wir einen neuen Lernansatz vor, MIL-NCE, der in der Lage ist, die in erzählten Videos inhärenten Fehlanpassungen zu bewältigen. Mit diesem Ansatz können wir robuste Video-Darstellungen von Grund auf neu erlernen, ohne dass manuelle Annotationen erforderlich sind. Wir evaluieren unsere Darstellungen anhand einer Vielzahl von vier nachgelagerten Aufgaben über acht Datensätze: Aktionserkennung (HMDB-51, UCF-101, Kinetics-700), Text-zu-Video-Retrieval (YouCook2, MSR-VTT), Aktionsskalierung (YouTube-8M Segments, CrossTask) und Aktionssegmentierung (COIN). Unsere Methode übertrifft alle veröffentlichten selbstüberwachten Ansätze für diese Aufgaben sowie mehrere vollständig überwachte Baseline-Methoden.