Google a récemment lancé un logiciel de dessin intelligent appelé Auto Draw. Comme son nom l’indique, le logiciel peut dessiner automatiquement. Vous pouvez dessiner un croquis sur le logiciel à volonté, puis il fera automatiquement correspondre des images similaires que vous pourrez choisir. Il s’agit d’un logiciel d’intelligence artificielle très basique, très similaire à la fonction de saisie manuscrite d’un téléphone mobile.
Des astuces pour dessiner ?
Dans le même temps, Ali Eslami et plusieurs autres scientifiques ont développé un logiciel de dessin plus intelligent doté d’une pensée bionique et de la capacité d’apprendre par lui-même. Ce que ce logiciel peut faire : Après avoir fourni une image, il peut en dessiner une « copie ». Le point clé est le processus de dessin, c'est-à-dire que le logiciel a la capacité de dessiner des images plutôt que de simplement numériser et sortir comme un scanner.
Voici les idées de recherche et de développement des scientifiques :
inspiration:
Nous avons découvert que les humains voient plus que la surface des choses. Par exemple, lorsque nous voyons un bâtiment, nous nous émerveillons non seulement de la complexité de sa conception, mais nous apprécions également le savoir-faire de sa construction. Cette capacité à voir l’essence à travers les phénomènes est une raison importante pour laquelle l’intelligence humaine est supérieure à celle des autres espèces. Nous espérons donc créer un logiciel aussi intelligent que les humains ou imitant la pensée humaine. Par exemple, lorsque nous regardons un tableau, nous espérons que le logiciel pourra « comprendre » comment le portrait est dessiné, plutôt que de simplement distinguer les pixels du portrait.
Préparation : Équipement
Nous avons équipé le logiciel des mêmes outils de dessin et avons constaté qu’il pouvait distinguer automatiquement les différentes manières dont les nombres, les personnes et les portraits sont construits. Plus important encore, ces résultats sont obtenus grâce à un apprentissage autonome sans aucune formation sur un ensemble de données. Cela contraste fortement avec d’autres programmes qui doivent apprendre à partir d’un ensemble de données, ce qui peut prendre du temps.
Idées de conception d'ingénieur
Étape 1 : Bases logicielles de l'apprentissage par renforcement profond
Nous avons d’abord conçu un logiciel d’apprentissage par renforcement profond pour interagir avec un programme de peinture sur ordinateur : dessiner sur une tablette numérique avec un stylo électronique et modifier la taille du pinceau, la pression et la couleur à volonté. Cependant, comme ils n’ont pas été entraînés, les traits qu’ils dessinent sont tous aléatoires et la structure globale ne peut pas être vue. Pour résoudre ce problème, nous avons décidé de mettre en place un mécanisme de récompense et de punition pour encourager la production d’images plus précieuses.
Étape 2 : Mise à niveau du réseau neuronal discriminateur
Nous avons ensuite conçu un réseau neuronal appelé discriminateur pour déterminer si une image a été dessinée par un logiciel ou une vraie photo. Si l'image dessinée par le logiciel est jugée comme étant une vraie photo, le logiciel sera « récompensé ». En effet, la « récompense » du logiciel est qu’il a appris à tromper le discriminateur. Cette méthode est similaire à celle utilisée par le précédent réseau neuronal GANS (Generative Adversarial Networks), mais la différence est que le GAN génère directement des pixels, tandis que le nôtre génère des images après que le logiciel interagit avec l'environnement d'image réel.
Étape 3 : Formation sur les jeux de données MNIST et OMNIGLOT
Dans la première série d’expériences, le logiciel a été formé pour générer des images de chiffres similaires à celles de l’ensemble de données MNIST. En essayant de générer des images qui trompaient le discriminateur, le logiciel a appris à contrôler le pinceau pour s'adapter au style des différents chiffres, ce que nous appelons souvent la technologie de programmation visuelle.
Étape 4 : Diffusion vers des ensembles de données de personnes réelles
Nous entraînons également le logiciel avec des images spécifiques, en lui demandant de générer des images « copiées », puis nous laissons le discriminateur déterminer si l'image « copiée » est générée par le logiciel et s'il s'agit d'une copie de l'image originale. Plus la distinction est difficile, plus la « récompense » est grande (plus le logiciel apprend). Le logiciel stocke une séquence de mouvements qui contrôlent le pinceau simulé. Cela signifie que ce qui est appris pendant la simulation peut être appliqué à d’autres environnements similaires, comme sur un bras robotique pour simuler une personne réelle. Les captures d'écran vidéo sont les suivantes :
Un autre avantage est que le cadre peut être étendu à des ensembles de données réels. Lors de l'entraînement au dessin des expressions faciales des célébrités, le logiciel peut capturer les principales caractéristiques du visage : forme, ton, coiffure, tout comme un artiste de rue esquisse un portrait en quelques traits seulement.
Savoir ce qu’est quelque chose et pourquoi c’est une capacité que les humains possèdent facilement et utilisent fréquemment. Dans cette étude, nous avons réussi à permettre au logiciel de « comprendre » comment un tableau a été dessiné après l’avoir vu.Durant cette période, j’ai également appris des techniques de programmation visuelle et comment exprimer de manière concise les relations de cause à effet.
Bien qu’il ne s’agisse que d’une petite étude, les technologies ultérieures de ce type sont essentielles pour permettre à l’intelligence artificielle d’avoir des capacités cognitives, de généralisation, d’analyse et de communication semblables à celles des humains. Bien qu'il soit impossible de remplacer les designers à court terme, et même impossible de remplacer l'un des « buckets de la famille Adobe », il est indéniable que l'émergence des logiciels de dessin automatique nous a en effet permis de voir un autre scénario d'application intéressant et prometteur de l'intelligence artificielle.