Apple dévoile Manzano, un modèle multimodal révolutionnaire capable de comprendre et de générer des images en un seul système
Apple travaille sur Manzano, un nouveau modèle multimodal conçu pour maîtriser à la fois l’interprétation et la génération d’images. Cette capacité combinée représente un défi technique majeur qui a longtemps limité les modèles open-source, qui peinent à égaler les systèmes commerciaux comme ceux d’OpenAI ou de Google. Manzano n’est pas encore disponible au public, ni de démonstration, mais les chercheurs Apple ont publié une étude avec des exemples de faible résolution pour des prompts complexes. Ces résultats sont comparés à ceux de modèles open-source comme Deepseek Janus Pro, ainsi qu’à des systèmes commerciaux comme GPT-4o et Gemini 2.5 Flash Image Generation (surnommé « Nano Banana »). Dans trois tests exigeants, Manzano affiche des performances équivalentes à celles de GPT-4o et de Nano Banana. Selon Apple, la principale faiblesse des modèles open-source réside dans leur incapacité à équilibrer efficacité en analyse d’images et qualité en génération. Les systèmes commerciaux, eux, intègrent mieux ces deux fonctions. Le problème vient de la manière dont les modèles traitent les images : les données continues (représentées par des nombres flottants) sont idéales pour l’analyse, tandis que les tokens discrets sont nécessaires pour la génération. La plupart des modèles utilisent des outils distincts pour chaque tâche, ce qui crée des conflits au sein du modèle linguistique. Pour résoudre ce dilemme, Manzano, dont le nom signifie « arbre à pommes » en espagnol, repose sur une architecture hybride innovante : un tokenizer d’image partagé qui extrait deux types de tokens à partir d’un même encodeur. Les tokens continus, sous forme de nombres flottants, servent à comprendre les images, tandis que les tokens discrets, classés en catégories fixes, permettent la génération. Cette dualité partagée réduit les incohérences entre les deux tâches. Pendant l’entraînement, le tokenizer hybride fusionne des adaptateurs continus et discrets pour ajuster le décodeur du modèle linguistique. En phase d’inférence, les deux flux sont fournis simultanément pour l’analyse et la génération. L’architecture de Manzano comprend trois composants clés : le tokenizer hybride, un modèle linguistique unifié, et un décodeur d’image séparé, disponible en trois versions (0,9 ; 1,75 et 3,52 milliards de paramètres), supportant des résolutions allant de 256 à 2048 pixels. L’entraînement s’effectue en trois étapes, utilisant 2,3 milliards de paires image-texte provenant de sources publiques et internes, ainsi que 1 milliard de paires texte-image internes. Au total, 1,6 trillion de tokens sont utilisés, dont une partie issue de données synthétiques comme DALL-E 3 ou ShareGPT-4o. Les résultats de benchmark montrent que Manzano surpasse de nombreux modèles concurrents. La version à 30 milliards de paramètres excelle notamment sur des tâches textuelles complexes, comme l’analyse de documents ou de diagrammes (ScienceQA, MMMU, MathVista). L’évolution des performances avec la taille du modèle est significative : la version à 3 milliards de paramètres dépasse de plus de 10 points la version la plus petite sur plusieurs épreuves. Les versions Manzano 3B et 30B se classent en tête de neuf benchmarks multimodaux, rivalisant avec les meilleurs modèles existants. Comparé à des systèmes spécialisés, Manzano présente des écarts minimes — inférieurs à un point — pour la version 3B. Sur les tâches de génération d’images, il se positionne parmi les meilleurs, capable de suivre des instructions complexes, de transférer des styles, d’effectuer des éditions (inpainting, outpainting) ou d’estimer la profondeur. Son architecture modulaire, permettant des mises à jour indépendantes de chaque composant, pourrait influencer l’évolution future des modèles multimodaux. Cependant, malgré ces progrès techniques, les modèles fondamentaux d’Apple restent en retard par rapport aux leaders du secteur, même avec le nouveau cadre d’IA sur appareil. Pour combler ce fossé, Apple prévoit d’intégrer GPT-5 d’OpenAI dans Apple Intelligence dès iOS 26. Manzano démontre une avancée prometteuse, mais son véritable potentiel ne sera évalué que par les mises à jour futures et sa capacité à réduire la dépendance aux modèles tiers.
