HyperAIHyperAI
il y a 2 mois

Récupération pour répondre : Réponse aux questions sur vidéo avec des grands modèles de langage figés en zero-shot

Junting Pan; Ziyi Lin; Yuying Ge; Xiatian Zhu; Renrui Zhang; Yi Wang; Yu Qiao; Hongsheng Li
Récupération pour répondre : Réponse aux questions sur vidéo avec des grands modèles de langage figés en zero-shot
Résumé

Le traitement des questions sur vidéo (VideoQA) a connu d'importantes avancées grâce à l'évolution récente des grands modèles de langage (LLMs). L'idée centrale est de transformer les informations visuelles dans l'espace des caractéristiques linguistiques afin de pouvoir pleinement exploiter la capacité des LLMs. Les méthodes actuelles de VideoQA suivent généralement deux paradigmes : (1) l'apprentissage de l'alignement intermodal, et (2) l'utilisation d'un modèle pré-entraîné de légendage automatique pour décrire les données visuelles. Cependant, le premier paradigme nécessite un entraînement coûteux sur de nombreuses données multimodales supplémentaires, tandis que le second est limité par une généralisation insuffisante aux domaines non vus lors de l'entraînement.Pour remédier à ces limitations, un cadre simple mais efficace appelé Retrieving-to-Answer (R2A) est proposé. Étant donné une vidéo en entrée, R2A récupère d'abord un ensemble de textes sémantiquement similaires à partir d'un corpus textuel générique en utilisant un modèle multimodal pré-entraîné (par exemple, CLIP). Avec la question posée et les textes récupérés, un grand modèle de langage (par exemple, DeBERTa) peut être utilisé directement pour produire une réponse souhaitée. Sans nécessiter d'affinage intermodal, R2A permet à tous les composants clés (comme le LLM, le modèle de recherche et le corpus textuel) d'être interchangeables. Des expériences approfondies sur plusieurs benchmarks VideoQA montrent que même avec seulement 1,3 milliard de paramètres et sans affinage, notre R2A peut surpasser le modèle Flamingo-80B qui est 61 fois plus grand et qui a été additionally entraîné sur près de 2,1 milliards de données multimodales.

Récupération pour répondre : Réponse aux questions sur vidéo avec des grands modèles de langage figés en zero-shot | Articles de recherche récents | HyperAI