vor 2 Monaten

End-to-End Lernen visueller Repräsentationen aus unsortierten Anleitungsvideos

Miech, Antoine ; Alayrac, Jean-Baptiste ; Smaira, Lucas ; Laptev, Ivan ; Sivic, Josef ; Zisserman, Andrew

Abstract

Die Annotation von Videos ist mühsam, teuer und nicht skaliierbar. Dennoch basieren viele leistungsfähige Videomodelle weiterhin auf manuell annotierten Daten. Mit der kürzlichen Einführung des HowTo100M-Datensatzes bieten erzählte Videos nun die Möglichkeit, Video-Darstellungen ohne manuelle Überwachung zu lernen. In dieser Arbeit schlagen wir einen neuen Lernansatz vor, MIL-NCE, der in der Lage ist, die in erzählten Videos inhärenten Fehlanpassungen zu bewältigen. Mit diesem Ansatz können wir robuste Video-Darstellungen von Grund auf neu erlernen, ohne dass manuelle Annotationen erforderlich sind. Wir evaluieren unsere Darstellungen anhand einer Vielzahl von vier nachgelagerten Aufgaben über acht Datensätze: Aktionserkennung (HMDB-51, UCF-101, Kinetics-700), Text-zu-Video-Retrieval (YouCook2, MSR-VTT), Aktionsskalierung (YouTube-8M Segments, CrossTask) und Aktionssegmentierung (COIN). Unsere Methode übertrifft alle veröffentlichten selbstüberwachten Ansätze für diese Aufgaben sowie mehrere vollständig überwachte Baseline-Methoden.