UnLoc: Ein einheitliches Framework für Video-Lokalisierungsaufgaben

Während große vortrainierte Bild-Text-Modelle wie CLIP bereits für verschiedene Aufgaben auf Videoebene bei gekürzten Videos eingesetzt wurden, ist ihre Anwendung zur zeitlichen Lokalisierung in ungeschnittenen Videos noch eine relativ wenig erforschte Aufgabe. Wir haben einen neuen Ansatz dafür entwickelt, den wir UnLoc nennen. Dieser verwendet vortrainierte Bild- und Textturmmodelle und speist Token in ein Video-Text-Fusionsmodell. Die Ausgabe des Fusionsmoduls wird dann verwendet, um eine Merkmalspyramide zu konstruieren, wobei jede Ebene mit einem Head verbunden ist, um pro Frame Relevanzbewertungen und Start-/Endzeitverschiebungen vorherzusagen. Im Gegensatz zu früheren Arbeiten ermöglicht unsere Architektur Moment-Retrieval, temporale Lokalisierung und Aktionssegmentierung mit einem einstufigen Modell, ohne dass Aktionsvorschläge, bewegungsbasierte vortrainierte Merkmale oder Repräsentationsmaskierung erforderlich sind. Im Vergleich zu spezialisierten Modellen erzielen wir mit unserem einheitlichen Ansatz Spitzenwerte in allen drei verschiedenen Lokalisierungsaufgaben. Der Code wird unter folgender URL verfügbar sein: \url{https://github.com/google-research/scenic}.