Command Palette
Search for a command to run...
LiveCC : apprentissage d’un modèle linguistique vidéo par transcription audio en continu à grande échelle
LiveCC : apprentissage d’un modèle linguistique vidéo par transcription audio en continu à grande échelle
Joya Chen Ziyun Zeng Yiqi Lin Wei Li Zejun Ma Mike Zheng Shou
Résumé
Les récents modèles linguistiques à grande échelle pour vidéos (Video LLM) dépendent souvent d'annotations humaines coûteuses ou d'API de modèles propriétaires (par exemple, GPT-4o) pour générer les données d'entraînement, ce qui limite leur entraînement à grande échelle. Dans cet article, nous explorons l'entraînement à grande échelle des Video LLM à l'aide de transcriptions automatiques de reconnaissance vocale (ASR) à faible coût. Plus précisément, nous proposons une nouvelle approche d'entraînement en flux (streaming) qui entrelace de manière dense les mots transcrits par ASR et les cadres vidéo selon leurs horodatages. Contrairement aux travaux antérieurs sur la représentation vision-langage basée sur ASR, notre méthode s'adapte naturellement aux caractéristiques de flux de l'ASR, permettant ainsi au modèle d'apprendre une modélisation vision-langage fine et temporellement alignée. Pour soutenir cet algorithme d'entraînement, nous introduisons une chaîne de traitement de données permettant de transformer des vidéos YouTube et leurs sous-titres fermés (CC, équivalents à des transcriptions ASR), produisant ainsi le jeu de données Live-CC-5M pour l'entraînement préalable (pre-training) et le jeu de données Live-WhisperX-526K pour une mise au point supervisée de haute qualité (SFT). De manière remarquable, même sans mise au point supervisée, le modèle pré-entraîné uniquement sur ASR, LiveCC-7B-Base, démontre des performances compétitives sur les tâches générales de question-réponse vidéo et acquiert une nouvelle capacité en commentaires vidéo en temps réel. Pour évaluer cette fonctionnalité, nous avons soigneusement conçu un nouveau benchmark, LiveSports-3K, utilisant un LLM comme juge pour mesurer la qualité des commentaires libres. Les expériences montrent que notre modèle final, LiveCC-7B-Instruct, dépasse même des modèles avancés de 72 milliards de paramètres (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) en termes de qualité de commentaire, tout en fonctionnant en mode temps réel. Par ailleurs, il atteint des résultats de pointe à l'échelle de 7B/8B sur des benchmarks populaires de question-réponse vidéo tels que VideoMME et OVOBench, démontrant ainsi la grande généralisation de notre approche. Toutes les ressources associées à cet article ont été mises à disposition à l'adresse suivante : [lien URL].