Libérer le Potentiel de CLIP pour la Détection de Séquences Vidéo Importantes

Les modèles multimodaux et les grands modèles de langage (LLMs) ont révolutionné l'utilisation des connaissances du monde ouvert, débloquant de nouveaux potentiels dans diverses tâches et applications. Parmi ces domaines, le domaine vidéo a particulièrement bénéficié de leurs capacités. Dans cet article, nous présentons Highlight-CLIP (HL-CLIP), une méthode conçue pour exceller dans la tâche de détection de points saillants vidéo en exploitant les connaissances pré-entraînées intégrées dans les modèles multimodaux. En affinant simplement l'encodeur multimodal associé à notre technique innovante de pooling de salience, nous avons atteint des performances d'avant-garde dans la tâche de détection de points saillants, selon le benchmark QVHighlight, au mieux de notre connaissance.