Nouvelle Méthode de Génération et Édition d'Images sans Générateur AI
Une nouvelle méthode pour éditer ou générer des images La génération d'images par intelligence artificielle (IA), qui utilise des réseaux neuronaux pour créer de nouvelles images à partir d'une variété d'entrées incluant des commandes textuelles, devrait devenir une industrie de milliards de dollars d'ici la fin de cette décennie. Avec les technologies actuelles, créer une image fantaisiste, comme un ami planta un drapeau sur Mars ou volant sans précaution dans un trou noir, peut prendre moins d'une seconde. Cependant, avant de pouvoir réaliser de telles tâches, les générateurs d’images sont généralement formés sur de grands ensembles de données contenant des millions d’images associées à du texte. Ce processus de formation est souvent laborieux, prenant des semaines ou des mois, et consomme d'énormes ressources computationnelles. Mais qu'en serait-il si l'on pouvait générer des images par des méthodes d'IA sans utiliser de générateur du tout ? C'est exactement ce que promet une nouvelle recherche présentée lors de la 38e Conférence internationale sur l'apprentissage machine (ICML 2025) cet été à Vancouver, en Colombie-Britannique. Le papier, intitulé « Novel Techniques for Manipulating and Generating Images », a été co-rédigé par Lukas Lao Beyer, doctorant au Laboratoire pour l'information et la prise de décision (LIDS) du MIT ; Tianhong Li, chercheur postdoctoral au Laboratoire d'informatique et d'intelligence artificielle (CSAIL) du MIT ; Xinlei Chen, chercheur chez Facebook AI Research ; Sertac Karaman, professeur d'aérospatiale au MIT et directeur du LIDS ; et Kaiming He, professeur agrégé d'ingénierie électrique et informatique au MIT. Cette collaboration a commencé lors d'un projet de classe dans un séminaire de troisième cycle sur les modèles génératifs profonds que Lao Beyer a suivi l'automne dernier. Au fil des discussions du semestre, il est devenu évident pour lui et son enseignant, Kaiming He, que ce travail avait un potentiel réel qui dépassait largement le cadre d'une simple série d'exercices. D'autres collaborateurs ont rapidement rejoint l'équipe. Le point de départ de l'investigation de Lao Beyer était une étude publiée en juin 2024 par des chercheurs de l'Université technique de Munich et de la société chinoise ByteDance. Cette étude a introduit une nouvelle façon de représenter l'information visuelle appelée « tokenizer unidimensionnel ». Avec cette méthode, une image de 256x256 pixels peut être traduite en une séquence de seulement 32 nombres, appelés jetons. Chaque jeton est un nombre de 12 chiffres composé de 1s et de 0s, offrant ainsi 4 096 possibilités différentes. « C'est comme un vocabulaire de 4 096 mots qui forme une langue abstraite et cachée parlée par l'ordinateur », explique He. « Ce n'est pas une langue humaine, mais nous pouvons encore essayer de comprendre ce qu'elle signifie. » La première génération de tokenizers transformait généralement une image en un tableau de 16x16 jetons, chaque jeton encapsulant de manière très condensée des informations correspondant à une partie spécifique de l'image originale. Les nouveaux tokenizers 1D peuvent représenter une image de manière plus efficace, en utilisant beaucoup moins de jetons, et ces jetons capturent des informations sur l'ensemble de l'image, pas juste une portion. Dans ses premières expérimentations, Lao Beyer a constaté que l’extraction ou le remplacement d’un jeton par une valeur aléatoire entraînait des changements reconnaissables dans l’image. Par exemple, un jeton modifiait la résolution, transformant une image basse résolution en haute résolution ou inversement. Un autre jeton affectait la flou du fond, tandis qu’un autre influençait la luminosité. Il a également découvert un jeton lié à la « pose » ; dans une image de rouge-gorge, celui-ci pouvait faire pivoter la tête de l'oiseau de droite à gauche. « C'était une découverte inédite, car personne n'avait encore observé des changements visuellement identifiés en manipulant des jetons », affirme Lao Beyer. Cette découverte a ouvert la voie à une nouvelle approche de l'editing des images. Les chercheurs du MIT ont montré comment ce processus pouvait être simplifié et automatisé, évitant ainsi la modification manuelle des jetons, un par un. Ils ont également obtenu un résultat encore plus important en matière de génération d'images. Normalement, un système capable de générer des images nécessite un tokenizer, qui compresse et encode les données visuelles, et un générateur, qui combine et organise ces représentations compactes pour créer de nouvelles images. Les chercheurs du MIT ont trouvé un moyen de créer des images sans utiliser de générateur. Leur approche repose sur une tokenizer 1D et un détoker, également appelé décodeur, qui peut reconstruire une image à partir d’une chaîne de jetons. En outre, grâce à l'aide fournie par un réseau neuronal déjà existant et commercialisé, nommé CLIP, qui ne peut pas générer des images par lui-même mais peut mesurer à quel point une certaine image correspond à une commande textuelle, l'équipe a réussi à transformer une image de panda roux en celle d'un tigre. De même, ils ont pu créer des images de tigres ou de toute autre forme souhaitée à partir de zéro, en attribuant initialement des valeurs aléatoires aux jetons et en les ajustant itérativement pour que l’image reconstruite corresponde de plus en plus au texte souhaité. En utilisant le même dispositif – tokenizers et détoker, mais sans générateur –, le groupe a aussi démontré comment effectuer de l'« inpainting », c'est-à-dire combler des parties d'images qui avaient été effacées. Eviter le besoin de formations longues avec des générateurs pourrait entraîner une réduction significative des coûts computationnels, puisque ces derniers demandent normalement une formation intensive. « Ce qui peut paraître surprenant dans les contributions de cette équipe, c’est qu’ils n’ont rien inventé de nouveau », explique Kaiming He. « Ils n’ont ni inventé la tokenizer 1D, ni le modèle CLIP. Mais ils ont découvert que de nouvelles capacités peuvent émerger quand on rassemble tous ces éléments. » Évaluations et perspectives Pour Saining Xie, scientifique informatique à l'Université de New York, « ce travail redéfinit le rôle des tokenizers. Il montre que les tokenizers d’images, généralement utilisés pour la compression, peuvent en fait faire bien plus. Le fait qu’un simple tokenizer 1D, mais hautement compressé, puisse gérer des tâches comme l’inpainting ou l’édition guidée par du texte sans avoir besoin de former un modèle génératif complet, est assez surprenant. » Zhuang Liu, de l'Université de Princeton, partage cette opinion : « Le travail de ce groupe montre qu'il est possible de générer et de manipuler desimages d'une manière beaucoup plus simple que ce que l’on pensait auparavant. Il démontre que la génération d'images peut être le sous-produit d’un compresseur d’images très efficace, potentiellement réduisant les coûts de génération de plusieurs ordres de grandeur. » Karaman suggère également que cette innovation pourrait avoir de nombreuses applications hors du champ de la vision par ordinateur. « Par exemple, on pourrait envisager de tokéniser les actions des robots ou des voitures autonomes de la même manière, ce qui pourrait rapidement élargir l’impact de ce travail. » Lao Beyer partage cette vision, notant que la compression extrême offerte par les tokenizers 1D permet de réaliser « des choses incroyables » applicables à d'autres domaines. Dans le secteur des voitures autonomes, qui fait partie de ses intérêts de recherche, les jetons pourraient représenter différents itinéraires qu’un véhicule pourrait emprunter. Xie est également intrigué par les applications potentielles de ces idées innovantes : « Il y a plusieurs utilisations vraiment fascinantes que cela pourrait débloquer. » Les chercheurs du MIT ont donc ouvert de nouvelles pistes pour l'IA, améliorant la flexibilité et l'efficacité des systèmes de génération et d'editing d'images, tout en réduisant considérablement les ressources computationnelles nécessaires. Ce travail promet non seulement d'enrichir le domaine de la vision par ordinateur, mais aussi de stimuler des avancées dans d'autres disciplines technologiques. Profil de l'entreprise Le Massachusetts Institute of Technology (MIT) est une université de renommée mondiale basée dans le Massachusetts, connue pour ses recherches pionnières dans les domaines de la technologie et des sciences. Le Laboratoire pour l'information et la prise de décision (LIDS) et le Laboratoire d'informatique et d'intelligence artificielle (CSAIL) sont deux entités-clés de cette institution, engagées dans des projets novateurs en IA et en traitement de l'image. Ces résultats récents soulignent l'engagement du MIT à repousser les frontières de la recherche scientifique et technologique, avec des implications potentiellement révolutionnaires pour l'industrie de l'IA et au-delà.