Intégration des Connaissances Préalables par le Codage LLM et la Régulation Pseudo-Événementielle pour la Recherche de Moments Vidéo

Dans cet article, nous examinons la faisabilité d'utiliser des grands modèles de langage (LLMs) pour intégrer des connaissances générales et incorporer des pseudo-événements comme a priori pour la distribution temporelle du contenu dans les modèles de recherche de moments vidéo (VMR). La motivation de cette étude découle des limitations liées à l'utilisation des LLMs en tant que décodeurs pour générer des descriptions textuelles discrètes, ce qui entrave leur application directe aux sorties continues telles que les scores de saillance et les plongements inter-images (inter-frame embeddings) qui capturent les relations inter-images. Pour surmonter ces limitations, nous proposons d'utiliser les encodeurs des LLMs plutôt que leurs décodeurs. Par le biais d'une étude de faisabilité, nous montrons que les encodeurs des LLMs affinent efficacement les relations inter-conceptuelles dans les plongements multimodaux, même sans avoir été formés sur des plongements textuels. Nous démontrons également que la capacité d'affinement des encodeurs des LLMs peut être transférée à d'autres plongements, tels que BLIP et T5, à condition que ces plongements présentent des schémas de similarité inter-conceptuelle similaires à ceux des plongements CLIP. Nous présentons un cadre général pour intégrer les encodeurs des LLMs dans les architectures VMR existantes, plus précisément au sein du module de fusion. À travers une validation expérimentale, nous démontrons l'efficacité de nos méthodes proposées en atteignant des performances de pointe dans le domaine de la recherche de moments vidéo (VMR). Le code source est accessible à l'adresse suivante : https://github.com/fletcherjiang/LLMEPET.