il y a 2 mois

HawkEye : Formation de modèles de langage vidéo-texte pour l'ancrage du texte dans les vidéos

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

Résumé

Les modèles de langage à grande échelle pour la vidéo et le texte (video-text LLMs) ont montré des performances remarquables dans la réponse à des questions et la tenue de conversations sur des vidéos simples. Cependant, ils se comportent presque comme aléatoires lorsqu'il s'agit d'ancrer des requêtes textuelles dans des vidéos longues et complexes, présentant une faible capacité à comprendre et raisonner sur les informations temporelles, qui constituent la différence fondamentale entre les vidéos et les images. Dans cet article, nous proposons HawkEye, l'un des premiers video-text LLMs capables d'effectuer l'ancrage temporel de vidéos de manière entièrement textuelle. Pour recueillir des données d'entraînement applicables à l'ancrage temporel de vidéos, nous avons construit InternVid-G, un corpus vidéo-texte à grande échelle doté de légendes au niveau des segments et d'intervalle négatifs. Avec ce corpus, nous introduisons deux nouveaux objectifs d'entraînement sensibles au temps aux video-text LLMs. Nous proposons également une méthode granulaire grossière pour représenter les segments dans les vidéos, qui est plus robuste et plus facile pour les LLMs à apprendre et à suivre que les autres alternatives. De nombreuses expériences montrent que HawkEye est meilleur en termes d'ancrage temporel de vidéos et comparable aux autres tâches vidéo-texte par rapport aux video-text LLMs existants, ce qui confirme ses capacités supérieures en matière de compréhension multimodale vidéo-texte.