Story2Board : Une approche sans entraînement pour la génération expressive de storyboards

Nous présentons Story2Board, un cadre sans entraînement pour la génération expressive de storyboards à partir de langage naturel. Les méthodes existantes se concentrent étroitement sur l'identité du sujet, négligeant des aspects clés du récit visuel tels que la composition spatiale, l'évolution du fond ou le rythme narratif. Pour remédier à ce manque, nous introduisons un cadre léger de cohérence composé de deux composants : le Latent Panel Anchoring, qui préserve une référence commune aux personnages à travers les cases, et le Reciprocal Attention Value Mixing, qui fusionne doucement les caractéristiques visuelles entre paires de tokens présentant une forte attention mutuelle. Ensemble, ces mécanismes améliorent la cohérence sans nécessiter de modifications architecturales ni de fine-tuning, permettant aux modèles diffusion de pointe de générer des storyboards à la fois visuellement diversifiés et cohérents. Pour structurer la génération, nous utilisons un modèle linguistique disponible en libre-service afin de transformer des récits libres en promts précis au niveau des cases. Pour l'évaluation, nous proposons le Rich Storyboard Benchmark, un ensemble de récits à domaine ouvert conçu pour évaluer la diversité des dispositions, le récit ancré dans le fond, ainsi que la cohérence. Nous introduisons également une nouvelle métrique, Scene Diversity, qui quantifie la variation spatiale et posturale à travers les storyboards. Nos résultats qualitatifs et quantitatifs, ainsi qu'une étude utilisateur, montrent que Story2Board produit des storyboards plus dynamiques, cohérents et captivants sur le plan narratif que les méthodes de référence existantes.