Das Potenzial von CLIP für die Erkennung von Videohighlights freisetzen

Multimodale und große Sprachmodelle (LLMs) haben die Nutzung von offenen Weltwissen revolutioniert und neue Potenziale in verschiedenen Aufgaben und Anwendungen freigeschaltet. Insbesondere hat der Video-Bereich von ihren Fähigkeiten erheblich profitiert. In dieser Arbeit stellen wir Highlight-CLIP (HL-CLIP) vor, eine Methode, die darauf ausgelegt ist, in der Aufgabe der Video-Highlight-Erkennung durch die Nutzung des in multimodalen Modellen eingebetteten vorgefertigten Wissens hervorragende Leistungen zu erzielen. Durch das einfache Feinjustieren des multimodalen Encoders in Kombination mit unserer innovativen Saliency-Pooling-Technik haben wir den aktuellen Stand der Technik in der Highlight-Erkennungsaufgabe erreicht, insbesondere im QVHighlight-Benchmark, soweit wir wissen.