HyperAIHyperAI
il y a 8 jours

Shotluck Holmes : Une famille de modèles de vision linguistique à grande échelle à petite échelle efficaces pour la captioning vidéo et la synthèse

Richard Luo, Austin Peng, Adithya Vasudev, Rishabh Jain
Shotluck Holmes : Une famille de modèles de vision linguistique à grande échelle à petite échelle efficaces pour la captioning vidéo et la synthèse
Résumé

La vidéo est un médium de plus en plus prépondérant et dense en informations, mais elle pose des défis considérables aux modèles de langage. Un vidéo typique se compose d'une séquence de segments plus courts, appelés plans, qui forment collectivement un récit cohérent. Chaque plan est analogue à un mot dans une phrase, où plusieurs flux de données d'information (telles que les données visuelles et auditives) doivent être traités simultanément. La compréhension intégrale d'une vidéo exige non seulement la compréhension de l'information visuelle et auditive de chaque plan, mais aussi la capacité du modèle à relier les idées entre les plans pour générer une histoire plus vaste et globale. Malgré les progrès significatifs réalisés dans le domaine, les travaux actuels négligent souvent les informations sémantiques plus fines, plan par plan, présentes dans les vidéos. Dans ce projet, nous proposons une famille de modèles efficaces de vision et de langage (LLVMs) à grande échelle, appelés Shotluck Holmes, destinés à améliorer la synthèse et la génération de légendes vidéo. En exploitant des stratégies de pré-entraînement et de collecte de données améliorées, nous étendons les capacités des petits LLVMs existants, passant de la compréhension d'une image à celle d'une séquence de cadres. Plus précisément, nous démontrons que Shotluck Holmes atteint des performances supérieures aux résultats les plus avancés actuellement disponibles sur la tâche de génération de légendes et de synthèse vidéo Shot2Story, tout en utilisant des modèles significativement plus petits et plus efficaces sur le plan computationnel.

Shotluck Holmes : Une famille de modèles de vision linguistique à grande échelle à petite échelle efficaces pour la captioning vidéo et la synthèse | Articles de recherche récents | HyperAI