HyperAIHyperAI

Command Palette

Search for a command to run...

Récupération pour répondre : Réponse aux questions sur vidéo avec des grands modèles de langage figés en zero-shot

Junting Pan Ziyi Lin Yuying Ge Xiatian Zhu Renrui Zhang Yi Wang Yu Qiao Hongsheng Li

Résumé

Le traitement des questions sur vidéo (VideoQA) a connu d'importantes avancées grâce à l'évolution récente des grands modèles de langage (LLMs). L'idée centrale est de transformer les informations visuelles dans l'espace des caractéristiques linguistiques afin de pouvoir pleinement exploiter la capacité des LLMs. Les méthodes actuelles de VideoQA suivent généralement deux paradigmes : (1) l'apprentissage de l'alignement intermodal, et (2) l'utilisation d'un modèle pré-entraîné de légendage automatique pour décrire les données visuelles. Cependant, le premier paradigme nécessite un entraînement coûteux sur de nombreuses données multimodales supplémentaires, tandis que le second est limité par une généralisation insuffisante aux domaines non vus lors de l'entraînement.Pour remédier à ces limitations, un cadre simple mais efficace appelé Retrieving-to-Answer (R2A) est proposé. Étant donné une vidéo en entrée, R2A récupère d'abord un ensemble de textes sémantiquement similaires à partir d'un corpus textuel générique en utilisant un modèle multimodal pré-entraîné (par exemple, CLIP). Avec la question posée et les textes récupérés, un grand modèle de langage (par exemple, DeBERTa) peut être utilisé directement pour produire une réponse souhaitée. Sans nécessiter d'affinage intermodal, R2A permet à tous les composants clés (comme le LLM, le modèle de recherche et le corpus textuel) d'être interchangeables. Des expériences approfondies sur plusieurs benchmarks VideoQA montrent que même avec seulement 1,3 milliard de paramètres et sans affinage, notre R2A peut surpasser le modèle Flamingo-80B qui est 61 fois plus grand et qui a été additionally entraîné sur près de 2,1 milliards de données multimodales.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp