Veo 3.1 : Une mise à jour discrète mais révolutionnaire pour l’IA vidéo
Google vient de lancer Veo 3.1, une mise à jour itérative mais significative de son modèle d’IA vidéo, qui renforce notablement la réalisme, la qualité audio et la cohérence visuelle. Cette version introduit plusieurs améliorations clés : une simulation physique plus précise, des expressions faciales plus expressives, et une fonctionnalité innovante appelée « Ingredients to video », qui permet d’ancrer visuellement des éléments récurrents dans une séquence. Parallèlement, Google a déployé Veo 3.1 Fast, une variante plus rapide et économique, légèrement moins performante mais adaptée aux utilisateurs cherchant une production rapide à coût réduit. Les utilisateurs peuvent désormais expérimenter Veo 3.1 via plusieurs plateformes : Google AI Studio, Vertex AI, Google Flow, ou encore des fournisseurs d’API comme Fal AI et Replicate. Dans cet article, l’auteur utilise Pollo AI, où une réduction de 50 % du prix est actuellement disponible. Pour commencer, il suffit de créer un compte gratuit, d’accéder à l’outil text-to-video ou image-to-video, puis de sélectionner le modèle Google Veo 3.1. Trois fonctionnalités principales se démarquent. Premièrement, la réalisme physique a fait des progrès notables. Contrairement aux versions précédentes, Veo 3.1 gère désormais les fluides, les mouvements corporels complexes et les interactions physiques avec une fidélité impressionnante. Par exemple, une séquence montrant une femme effectuant un backflip depuis un bassin, puis plongeant dans l’eau, révèle des éclaboussures naturelles, des ondes de surface réalistes et une synchronisation parfaite entre le son de l’impact et le mouvement. Les corps ne se déforment plus de manière artificielle, et les lois de la physique sont respectées. Deuxièmement, les expressions faciales sont désormais bien plus intenses et crédibles. Un test comparatif entre Veo 3.1 et sa prédécesseur montre une évolution marquée : les yeux s’agrandissent, la bouche s’ouvre de manière réaliste, et les changements d’émotion (neutre → fâché → hurlement → rire hystérique) sont fluides et convaincants. Cette amélioration est particulièrement utile pour les scènes de portrait, les tests d’interprétation ou même comme référence pour les animateurs. Enfin, la fonction « Ingredients to video » permet d’insérer des images de référence (personnages, vêtements, styles) pour maintenir une cohérence visuelle tout au long d’une vidéo. Par exemple, en intégrant une photo d’un homme asiatique en veste de doudoune noire et lunettes de soleil, le modèle reproduit fidèlement ces éléments à chaque plan d’un shooting de mode en studio. Le mouvement, la lumière, la caméra et les expressions restent naturels, ce qui ouvre des perspectives puissantes pour la publicité, la présentation de produits ou la création de contenu narratif. En somme, bien que Veo 3.1 ne représente pas une révolution radicale, ses améliorations ciblées — notamment en physique, émotion et cohérence visuelle — ont un impact profond sur la qualité et la crédibilité des vidéos générées. Avec des audio de meilleure qualité, des extensions vidéo et une intégration facilitée via des API, ce modèle s’impose comme un outil majeur pour les créateurs, les marques et les professionnels du contenu. Les experts du secteur soulignent que ces avancées rapprochent les modèles d’IA des standards du cinéma et de la production professionnelle, marquant une étape clé dans l’évolution de l’IA générative vidéo.
