HyperAIHyperAI

Command Palette

Search for a command to run...

UnLoc: Ein einheitliches Framework für Video-Lokalisierungsaufgaben

Shen Yan; Xuehan Xiong; Arsha Nagrani; Anurag Arnab; Zhonghao Wang; Weina Ge; David Ross; Cordelia Schmid

Zusammenfassung

Während große vortrainierte Bild-Text-Modelle wie CLIP bereits für verschiedene Aufgaben auf Videoebene bei gekürzten Videos eingesetzt wurden, ist ihre Anwendung zur zeitlichen Lokalisierung in ungeschnittenen Videos noch eine relativ wenig erforschte Aufgabe. Wir haben einen neuen Ansatz dafür entwickelt, den wir UnLoc nennen. Dieser verwendet vortrainierte Bild- und Textturmmodelle und speist Token in ein Video-Text-Fusionsmodell. Die Ausgabe des Fusionsmoduls wird dann verwendet, um eine Merkmalspyramide zu konstruieren, wobei jede Ebene mit einem Head verbunden ist, um pro Frame Relevanzbewertungen und Start-/Endzeitverschiebungen vorherzusagen. Im Gegensatz zu früheren Arbeiten ermöglicht unsere Architektur Moment-Retrieval, temporale Lokalisierung und Aktionssegmentierung mit einem einstufigen Modell, ohne dass Aktionsvorschläge, bewegungsbasierte vortrainierte Merkmale oder Repräsentationsmaskierung erforderlich sind. Im Vergleich zu spezialisierten Modellen erzielen wir mit unserem einheitlichen Ansatz Spitzenwerte in allen drei verschiedenen Lokalisierungsaufgaben. Der Code wird unter folgender URL verfügbar sein: \url{https://github.com/google-research/scenic}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp