Command Palette
Search for a command to run...
Das Potenzial von CLIP für die Erkennung von Videohighlights freisetzen
Das Potenzial von CLIP für die Erkennung von Videohighlights freisetzen
Donghoon Han Seunghyeon Seo Eunhwan Park Seong-Uk Nam Nojun Kwak
Zusammenfassung
Multimodale und große Sprachmodelle (LLMs) haben die Nutzung von offenen Weltwissen revolutioniert und neue Potenziale in verschiedenen Aufgaben und Anwendungen freigeschaltet. Insbesondere hat der Video-Bereich von ihren Fähigkeiten erheblich profitiert. In dieser Arbeit stellen wir Highlight-CLIP (HL-CLIP) vor, eine Methode, die darauf ausgelegt ist, in der Aufgabe der Video-Highlight-Erkennung durch die Nutzung des in multimodalen Modellen eingebetteten vorgefertigten Wissens hervorragende Leistungen zu erzielen. Durch das einfache Feinjustieren des multimodalen Encoders in Kombination mit unserer innovativen Saliency-Pooling-Technik haben wir den aktuellen Stand der Technik in der Highlight-Erkennungsaufgabe erreicht, insbesondere im QVHighlight-Benchmark, soweit wir wissen.