HyperAIHyperAI

Command Palette

Search for a command to run...

TempCLR: Zeitliche Ausrichtungsdarstellung mit kontrastivem Lernen

Yuncong Yang† Jiawei Ma† Shiyuan Huang Long Chen Xudong Lin Guangxing Han Shih-Fu Chang

Zusammenfassung

Das Lernen von Video-Darstellungen (Video representation learning) hat bei der videotextuellen Vorkenntnisbildung (video-text pre-training) für die Null-Shot-Übertragung (zero-shot transfer) erfolgreich bewiesen, bei der jeder Satz so trainiert wird, dass er den zugehörigen Videoclips in einem gemeinsamen Merkmalsraum (common feature space) nahekommt. Bei langen Videos wird, wenn ein Absatz beschreibt, dessen Sätze verschiedene Segmente des Videos umreißen, durch das Abgleichen aller Satz-Clip-Paare der Absatz und das gesamte Video implizit ausgerichtet. Allerdings kann eine solche Einheitsebene-Vergleich die globale zeitliche Kontextinformation ignorieren, was unvermeidlich die Generalisierungsfähigkeit einschränkt. In dieser Arbeit schlagen wir einen kontrastiven Lernrahmen TempCLR vor, um das gesamte Video und den Absatz explizit zu vergleichen. Da das Video/die Zusammenfassung als Sequenz von Clips/Sätzen formuliert wird, verwenden wir unter Berücksichtigung ihrer zeitlichen Reihenfolge die dynamische Zeitdehnung (dynamic time warping), um die minimale kumulative Kosten über Satz-Clip-Paare als sequenzbasierten Abstand zu berechnen. Um die zeitlichen Dynamiken zu erforschen, stören wir die Konsistenz der zeitlichen Sukzession, indem wir die Videoclips in Bezug auf ihre zeitliche Granularität mischen (shuffling). Anschließend erhalten wir Darstellungen für Clips/Sätze, die die zeitliche Information wahrnehmen und somit die Sequenzausrichtung erleichtern. Neben der Vorkenntnisbildung am Video und dem Absatz kann unser Ansatz auch auf das Matching zwischen Videoinstanzen verallgemeinert werden. Wir evaluieren unseren Ansatz anhand von Videoretrieval, Aktionsschrittlokalisation und Few-Shot-Aktionserkennung und erzielen über alle drei Aufgaben hinweg konsistente Leistungsverbesserungen. Detaillierte Ausfallstudien (ablation studies) werden angeboten, um die Konzeption des Ansatzes zu rechtfertigen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp