HyperAIHyperAI

Command Palette

Search for a command to run...

HawkEye : Formation de modèles de langage vidéo-texte pour l'ancrage du texte dans les vidéos

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

Résumé

Les modèles de langage à grande échelle pour la vidéo et le texte (video-text LLMs) ont montré des performances remarquables dans la réponse à des questions et la tenue de conversations sur des vidéos simples. Cependant, ils se comportent presque comme aléatoires lorsqu'il s'agit d'ancrer des requêtes textuelles dans des vidéos longues et complexes, présentant une faible capacité à comprendre et raisonner sur les informations temporelles, qui constituent la différence fondamentale entre les vidéos et les images. Dans cet article, nous proposons HawkEye, l'un des premiers video-text LLMs capables d'effectuer l'ancrage temporel de vidéos de manière entièrement textuelle. Pour recueillir des données d'entraînement applicables à l'ancrage temporel de vidéos, nous avons construit InternVid-G, un corpus vidéo-texte à grande échelle doté de légendes au niveau des segments et d'intervalle négatifs. Avec ce corpus, nous introduisons deux nouveaux objectifs d'entraînement sensibles au temps aux video-text LLMs. Nous proposons également une méthode granulaire grossière pour représenter les segments dans les vidéos, qui est plus robuste et plus facile pour les LLMs à apprendre et à suivre que les autres alternatives. De nombreuses expériences montrent que HawkEye est meilleur en termes d'ancrage temporel de vidéos et comparable aux autres tâches vidéo-texte par rapport aux video-text LLMs existants, ce qui confirme ses capacités supérieures en matière de compréhension multimodale vidéo-texte.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp