HyperAIHyperAI
Back to Headlines

AI prédit le prochain plan cinématographique : une nouvelle génération de création vidéo narrative et visuelle

il y a 5 jours

Des chercheurs ont développé une nouvelle approche d’intelligence artificielle capable de prédire le prochain plan cinématographique, marquant une avancée significative dans la génération vidéo à plusieurs plans. En collaboration entre l’Université technologique de Nanyang (Singapour), l’Université chinoise de Hong Kong et le Laboratoire d’intelligence artificielle de Shanghai, une équipe a conçu un cadre innovant appelé Cut2Next, qui repose sur une tâche fondamentale : la génération du prochain plan (Next Shot Generation, NSG). Ce système utilise une stratégie de prompts hiérarchiques combinée à une injection conditionnelle contextuelle (CACI) et un masque d’attention hiérarchique (HAM) pour produire des séquences vidéo de haute qualité, cohérentes tant sur le plan visuel que narratif. Contrairement aux modèles actuels capables de générer des vidéos courtes (jusqu’à 10 secondes, comme Sora 2), les systèmes existants peinent à maintenir la cohérence narrative et visuelle sur de longues séquences. Les défis sont multiples : l’uniformité des personnages, la constance de l’éclairage, du cadrage et du ton stylistique, ainsi que la logique des transitions entre plans — comme les plans serrés, les plans de contrechamp ou les plans de coupe. Ces éléments sont essentiels pour imiter les conventions du montage cinématographique professionnel. Cut2Next aborde ces limites en adoptant une analogie puissante : le cinéma est une langue, et chaque plan, une « phrase ». Comme les modèles de langage prédise le mot suivant (Next Word Prediction), Cut2Next prédit le prochain plan en tenant compte à la fois des éléments visuels immédiats (personnages, lumière, composition) et des enjeux narratifs plus élevés (émotion, tension dramatique, progression de l’histoire). Cette vision s’inscrit dans une démarche plus large vers une intelligence artificielle générale (AGI), où la compréhension du monde passe par la modélisation des dynamiques complexes des séquences visuelles. Pour soutenir ce cadre, l’équipe a construit deux jeux de données originaux : - RawCuts, un ensemble massif (plus de 200 000 paires de plans) pour l’entraînement préliminaire, visant à enrichir la diversité des scènes vues. - CuratedCuts, un ensemble soigneusement annoté pour le fine-tuning, conçu pour guider le modèle vers des décisions esthétiques et narratives de qualité cinématographique. Les tests montrent que Cut2Next surpassait significativement les modèles existants en termes de cohérence visuelle, de fidélité au texte d’entrée et de fluidité narrative. Les évaluateurs ont souligné que le modèle parvient à reproduire des modèles d’édition classiques du cinéma, tels que les plans alternés (cut-in/cut-out), les contrechamps ou les mouvements de caméra cohérents, tout en maintenant une qualité visuelle élevée. Cette technologie s’ouvre à de nombreuses applications concrètes : - Génération de storyboards pour les productions cinématographiques coûteuses, en intégrant des informations 3D. - Création rapide de courts métrages AIGC, adaptés aux formats courts (quelques minutes, 10 à 15 plans), avec des styles variés. - Contenus personnalisés pour les livestreams, les influenceurs ou les produits de vente en ligne. - Simulation pour les jeux interactifs et les systèmes d’intelligence incarnée (embodied AI), en fournissant des données d’entraînement riches et diversifiées, permettant aux robots de mieux comprendre les comportements humains et les contextes sociaux. L’un des enseignements les plus profonds de cette recherche est la subjectivité inhérente aux données. Les chercheurs ont découvert que la sélection des plans, la définition de la continuité ou du sens global dépendait fortement de leurs propres jugements esthétiques et culturels. Ce constat souligne que, contrairement aux problèmes mathématiques ou logiques, les tâches créatives en IA ne reposent pas sur des vérités absolues, mais sur des conventions partagées — un défi crucial pour l’avenir de l’AGI. L’équipe, dirigée par le professeur Liu Ziwei de l’UTN, prévoit de libérer ouvertement le modèle, les données et les résultats initiaux, tout en collaborant avec des studios de cinéma et des entreprises de contenu pour optimiser les performances et l’efficacité. À long terme, cette recherche vise à intégrer la génération vidéo à plusieurs plans dans des environnements 3D et 4D, ouvrant la voie à une compréhension plus profonde du monde par l’IA. Comme le souligne Liu Ziwei, inspiré par Gödel, Escher, Bach, la frontière entre intelligence artificielle et création humaine est peut-être plus fine qu’on ne le croit. Cut2Next n’est pas seulement un outil technique : c’est une étape vers une intelligence visuelle émergente, capable de raconter des histoires, de comprendre les émotions et de participer à la narration du monde.

Related Links