HyperAIHyperAI

Command Palette

Search for a command to run...

Shotluck Holmes : Une famille de modèles de vision linguistique à grande échelle à petite échelle efficaces pour la captioning vidéo et la synthèse

Richard Luo Austin Peng Adithya Vasudev Rishabh Jain

Résumé

La vidéo est un médium de plus en plus prépondérant et dense en informations, mais elle pose des défis considérables aux modèles de langage. Un vidéo typique se compose d'une séquence de segments plus courts, appelés plans, qui forment collectivement un récit cohérent. Chaque plan est analogue à un mot dans une phrase, où plusieurs flux de données d'information (telles que les données visuelles et auditives) doivent être traités simultanément. La compréhension intégrale d'une vidéo exige non seulement la compréhension de l'information visuelle et auditive de chaque plan, mais aussi la capacité du modèle à relier les idées entre les plans pour générer une histoire plus vaste et globale. Malgré les progrès significatifs réalisés dans le domaine, les travaux actuels négligent souvent les informations sémantiques plus fines, plan par plan, présentes dans les vidéos. Dans ce projet, nous proposons une famille de modèles efficaces de vision et de langage (LLVMs) à grande échelle, appelés Shotluck Holmes, destinés à améliorer la synthèse et la génération de légendes vidéo. En exploitant des stratégies de pré-entraînement et de collecte de données améliorées, nous étendons les capacités des petits LLVMs existants, passant de la compréhension d'une image à celle d'une séquence de cadres. Plus précisément, nous démontrons que Shotluck Holmes atteint des performances supérieures aux résultats les plus avancés actuellement disponibles sur la tâche de génération de légendes et de synthèse vidéo Shot2Story, tout en utilisant des modèles significativement plus petits et plus efficaces sur le plan computationnel.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp