Google’s Nano Banana dévoilé : le modèle Gemini 2.5 Flash domine LMArena grâce à ses performances en génération d’images
LMArena, initialement lancé en 2023 par des chercheurs de l’Université de Californie à Berkeley sous le nom de Chatbot Arena, est devenu une plateforme clé d’évaluation communautaire des modèles d’intelligence artificielle. Fondé par Wei-Lin Chiang, CTO, Anastasios Angelopoulos (CEO) et Ion Stoica, la plateforme permet aux utilisateurs de comparer directement plusieurs modèles d’IA en leur soumettant des prompts, puis de voter pour celui qu’ils jugent le meilleur. Ce système basé sur les préférences réelles des utilisateurs a permis de créer des classements dynamiques, plus représentatifs que les benchmarks traditionnels. En août, une forte croissance du trafic — d’un facteur dix — a suivi la viralité d’un modèle mystérieux, Nano Banana, qui s’est révélé être une version avancée de Gemini 2.5 Flash de Google. Ce modèle a rapidement dominé le classement de génération d’images, confirmant son excellence dans les tâches visuelles et éditoriales. Aujourd’hui, LMArena compte plus de 3 millions d’utilisateurs mensuels. Selon Chiang, la plateforme vise à offrir un espace ouvert et accessible où les utilisateurs peuvent tester des modèles et exprimer leurs préférences, aidant ainsi les développeurs à améliorer leurs systèmes en fonction d’usages réels. Les résultats montrent que Claude se distingue en programmation, tandis que Gemini et GPT occupent les premières places en créativité. Dans les tâches multimodales, notamment l’analyse d’images, Gemini et les modèles GPT brillent. L’arrivée de Nano Banana a souligné l’importance de l’évaluation en conditions réelles, surtout face à des modèles de plus en plus performants. Les entreprises comme Google, Meta ou OpenAI participent activement à LMArena non seulement pour gagner en visibilité, mais surtout pour recevoir des retours détaillés basés sur des milliers d’interactions réelles. Ces retours incluent des rapports précis sur la performance de leurs modèles selon les usages (codage, rédaction, multimodalité), ainsi que des données ouvertes et du code partagés avec la communauté. Face à une convergence des modèles, Chiang insiste sur la nécessité de nouveaux benchmarks fondés sur des usages concrets. L’initiative WebDev, par exemple, évalue la capacité des IA à construire des sites web, un outil utile pour les développeurs. Concernant les investissements en IA, Chiang reconnaît que certains retours sont limités, mais souligne que la valeur réelle de l’IA se mesure à sa capacité à améliorer l’efficacité professionnelle — par exemple en économisant deux heures par jour à un médecin ou un avocat. LMArena s’engage à étendre son analyse à des domaines comme le droit, la finance ou la médecine, afin de mieux comprendre les limites des modèles. Le but est de produire des données transparentes, accessibles, pour aider à mieux évaluer l’impact réel de l’IA dans divers secteurs.