vor 2 Monaten

Das Potenzial von CLIP für die Erkennung von Videohighlights freisetzen

Han, Donghoon ; Seo, Seunghyeon ; Park, Eunhwan ; Nam, Seong-Uk ; Kwak, Nojun

Abstract

Multimodale und große Sprachmodelle (LLMs) haben die Nutzung von offenen Weltwissen revolutioniert und neue Potenziale in verschiedenen Aufgaben und Anwendungen freigeschaltet. Insbesondere hat der Video-Bereich von ihren Fähigkeiten erheblich profitiert. In dieser Arbeit stellen wir Highlight-CLIP (HL-CLIP) vor, eine Methode, die darauf ausgelegt ist, in der Aufgabe der Video-Highlight-Erkennung durch die Nutzung des in multimodalen Modellen eingebetteten vorgefertigten Wissens hervorragende Leistungen zu erzielen. Durch das einfache Feinjustieren des multimodalen Encoders in Kombination mit unserer innovativen Saliency-Pooling-Technik haben wir den aktuellen Stand der Technik in der Highlight-Erkennungsaufgabe erreicht, insbesondere im QVHighlight-Benchmark, soweit wir wissen.