TempCLR: Zeitliche Ausrichtungsdarstellung mit kontrastivem Lernen

Das Lernen von Video-Darstellungen (Video representation learning) hat bei der videotextuellen Vorkenntnisbildung (video-text pre-training) für die Null-Shot-Übertragung (zero-shot transfer) erfolgreich bewiesen, bei der jeder Satz so trainiert wird, dass er den zugehörigen Videoclips in einem gemeinsamen Merkmalsraum (common feature space) nahekommt. Bei langen Videos wird, wenn ein Absatz beschreibt, dessen Sätze verschiedene Segmente des Videos umreißen, durch das Abgleichen aller Satz-Clip-Paare der Absatz und das gesamte Video implizit ausgerichtet. Allerdings kann eine solche Einheitsebene-Vergleich die globale zeitliche Kontextinformation ignorieren, was unvermeidlich die Generalisierungsfähigkeit einschränkt. In dieser Arbeit schlagen wir einen kontrastiven Lernrahmen TempCLR vor, um das gesamte Video und den Absatz explizit zu vergleichen. Da das Video/die Zusammenfassung als Sequenz von Clips/Sätzen formuliert wird, verwenden wir unter Berücksichtigung ihrer zeitlichen Reihenfolge die dynamische Zeitdehnung (dynamic time warping), um die minimale kumulative Kosten über Satz-Clip-Paare als sequenzbasierten Abstand zu berechnen. Um die zeitlichen Dynamiken zu erforschen, stören wir die Konsistenz der zeitlichen Sukzession, indem wir die Videoclips in Bezug auf ihre zeitliche Granularität mischen (shuffling). Anschließend erhalten wir Darstellungen für Clips/Sätze, die die zeitliche Information wahrnehmen und somit die Sequenzausrichtung erleichtern. Neben der Vorkenntnisbildung am Video und dem Absatz kann unser Ansatz auch auf das Matching zwischen Videoinstanzen verallgemeinert werden. Wir evaluieren unseren Ansatz anhand von Videoretrieval, Aktionsschrittlokalisation und Few-Shot-Aktionserkennung und erzielen über alle drei Aufgaben hinweg konsistente Leistungsverbesserungen. Detaillierte Ausfallstudien (ablation studies) werden angeboten, um die Konzeption des Ansatzes zu rechtfertigen.