HyperAIHyperAI
il y a 2 mois

SlowFast-LLaVA : Une forte ligne de base sans entraînement pour les grands modèles linguistiques vidéo

Mingze Xu, Mingfei Gao, Zhe Gan, Hong-You Chen, Zhengfeng Lai, Haiming Gang, Kai Kang, Afshin Dehghan
SlowFast-LLaVA : Une forte ligne de base sans entraînement pour les grands modèles linguistiques vidéo
Résumé

Nous proposons SlowFast-LLaVA (ou SF-LLaVA pour abréger), un modèle de langage vidéo à grande échelle (LLM) sans entraînement qui peut capturer conjointement les sémantiques spatiales détaillées et le contexte temporel à long terme sans dépasser le budget de jetons des LLMs couramment utilisés. Cette réalisation est obtenue en utilisant une conception bicanale SlowFast des entrées pour les modèles de langage vidéo afin d'agréger efficacement les caractéristiques issues des images vidéo échantillonnées. Plus précisément, la voie lente extrait les caractéristiques à un faible taux d'images tout en conservant autant de détails spatiaux que possible (par exemple, avec 24x24 jetons), tandis que la voie rapide opère à un taux d'images élevé mais utilise une plus grande foulée de regroupement spatial (par exemple, réduction 6x) pour se concentrer sur les indices de mouvement. En conséquence, cette conception nous permet de capturer adéquatement tant les caractéristiques spatiales que temporelles, ce qui est bénéfique pour comprendre les détails tout au long de la vidéo. Les résultats expérimentaux montrent que SF-LLaVA surpasse les méthodes existantes sans entraînement sur une large gamme de tâches vidéo. Sur certains benchmarks, il atteint des performances comparables ou même supérieures aux Video LLMs d'avant-garde qui ont été affinés sur des jeux de données vidéo.

SlowFast-LLaVA : Une forte ligne de base sans entraînement pour les grands modèles linguistiques vidéo | Articles de recherche récents | HyperAI