ARC-Hunyuan-Video-7B : Compréhension structurée des vidéos du monde réel en courte durée

Les vidéos courtes générées par les utilisateurs dans le monde réel, en particulier celles diffusées sur des plateformes telles que WeChat Channel et TikTok, dominent Internet mobile. Cependant, les grands modèles multimodaux actuels manquent de capacités essentielles de compréhension vidéo structurées dans le temps, détaillées et approfondies, qui constituent la base de la recherche vidéo efficace et de la recommandation, ainsi que des nouvelles applications vidéo. Comprendre les vidéos courtes du monde réel est en réalité un défi en raison de leurs éléments visuels complexes, de leur densité d'information élevée à la fois visuelle et auditive, ainsi que de leur rythme rapide axé sur l'expression émotionnelle et la transmission d'opinions. Cela exige une raison avancée pour intégrer efficacement les informations multimodales, incluant les éléments visuels, audio et textuels. Dans ce travail, nous introduisons ARC-Hunyuan-Video, un modèle multimodal capable de traiter, de manière end-to-end, les signaux visuels, audio et textuels provenant d'entrées vidéo brutes pour une compréhension structurée. Le modèle est capable de générer des légendes vidéo chronométrées à plusieurs granularités, de résumer des vidéos, de répondre à des questions vidéo ouvertes, de localiser temporellement des objets dans les vidéos et de raisonner sur les vidéos. En exploitant des données de haute qualité issues d'un pipeline d'annotation automatisé, notre modèle compact de 7 milliards de paramètres a été entraîné via un régime complet : pré-entraînement, ajustement par instruction, démarrage froid, entraînement post-RL (reinforcement learning) et ajustement final par instruction. Des évaluations quantitatives sur notre benchmark introduit, ShortVid-Bench, et des comparaisons qualitatives démontrent ses performances solides dans la compréhension des vidéos du monde réel. Le modèle supporte également la reconnaissance sans exemple (zero-shot) ou l'ajustement avec un petit nombre d'exemples pour diverses applications en aval. La mise en production de notre modèle dans un environnement réel a permis d'obtenir des améliorations tangibles et mesurables en termes d'engagement et de satisfaction des utilisateurs, une réussite soutenue par son efficacité remarquable, avec des tests à charge montrant un temps de déduction de seulement 10 secondes pour une vidéo d'une minute sur une carte GPU H20.