HyperAI

Gemini 2.5 Est Entièrement Mis À Jour, Deep Think Soutient Et Écrase OpenAI

特色图像

Au petit matin du 21 mai, heure de Pékin, la conférence Google I/O 2025 est arrivée comme prévu. Dans son discours d'ouverture, le PDG de la société, Sundar Pichai, a annoncé un certain nombre de mises à jour importantes, démontrant pleinement les fortes capacités et le taux de croissance de Google dans le domaine de l'IA.

« Habituellement, nous ne dévoilons pas beaucoup d'informations dans les semaines précédant la conférence I/O, car nous réservons les modèles les plus importants pour les publier lors de la conférence. Mais à l'ère de Gemini, nous avons peut-être lancé le modèle le plus intelligent un mardi de mars, ou annoncé des avancées majeures comme AlphaEvolve une semaine à l'avance », a déclaré Sundar Pichai. En effet, les lecteurs qui suivent Google doivent savoir que juste avant la conférence, la société a lancé un nouveau modèle historique, AlphaEvolve, qui a suscité des attentes accrues pour la conférence I/O.

Dans le discours d’ouverture qui vient de s’achever, Pichai a répondu aux attentes. En plus d'une série de mises à jour de Gemini, il a également publié les derniers développements d'Imagen 4, Veo 3, ainsi que des casques, des lunettes XR et d'autres produits. Cet article présentera les principales mises à jour⬇️

Mise à jour complète du système Gemini 2.5

Deep Think est puissant

La mise à jour Gemini 2.5 était attendue, mais aussi pleine de surprises. Google a lancé son modèle le plus intelligent à ce jour, Gemini 2.5 Pro, en mars, et a proposé la mise à jour de la version Preview de Gemini 2.5 Pro aux développeurs il y a deux semaines. Il a ensuite pris la tête de nombreuses listes d’évaluation de grands modèles.

Par exemple,Il a obtenu un score de 1415 dans le benchmark de programmation WebDev Arena, se classant ainsi en tête de liste.

Pour explorer davantage les capacités de réflexion des Gémeaux,Google a commencé à tester un mode de raisonnement amélioré appelé Deep Think.Cette approche utilise de nouvelles techniques de recherche pour permettre au modèle de prendre en compte plusieurs hypothèses avant de répondre.

En termes d’effet,La version Gemini 2.5 Pro Deep Think fonctionne bien sur plusieurs benchmarks difficiles, surpassant OpenAI o3 et o4-mini.Il s'agit notamment de :

* A obtenu d’excellents résultats au test USAMO (United States Mathematical Olympiad) 2025 ;

* Leader dans LiveCodeBench, une référence difficile pour les compétences de programmation de niveau compétition ;

* Un score élevé de 84,0% au MMMU (Multi-Modal Reasoning Test), démontrant d'excellentes capacités de raisonnement multimodal.

De plus, la série Gemma 3 a également été mise à jour pour répondre aux besoins d'IA des appareils mobiles.Google, en collaboration avec Qualcomm, MediaTek, Samsung et d'autres fabricants, a proposé un nouveau framework de pointe, Gemma 3n.Il utilise une technologie innovante de Google DeepMind - Per-Layer Embeddings (PLE) pour obtenir une optimisation significative de l'utilisation de la mémoire. Bien que les tailles de paramètres d'origine des modèles soient respectivement de 5 milliards (5B) et 8 milliards (8B), avec la technologie PLE, ces modèles plus grands peuvent s'exécuter sur des appareils mobiles ou en inférence en temps réel à partir du cloud avec une surcharge de mémoire équivalente à 2 milliards (2B) ou 4 milliards (4B) de modèles de paramètres, c'est-à-dire que seulement 2 Go ou 3 Go de mémoire dynamique sont nécessaires pour fonctionner.

Veo 3 et Imagen 4, inspirent la créativité

Par rapport à la génération précédente, Veo 3 présente non seulement une amélioration significative de la qualité vidéo,Plus important encore, la génération simultanée de vidéo et d’audio a été réalisée pour la première fois.Qu’il s’agisse du bruit de la circulation dans une rue de la ville, du chant des oiseaux dans un parc ou même des conversations entre personnages, Veo 3 peut ajouter automatiquement des éléments audio en fonction des invites textuelles ou des besoins des utilisateurs.

Le modèle excelle également dans les phénomènes physiques réalistes tels que la synchronisation labiale et est capable de comprendre des descriptions de scènes complexes et de les traduire en vidéos dynamiques. Actuellement, Veo 3 est en ligne. Les abonnés Ultra aux États-Unis peuvent en faire l'expérience dans l'application Gemini et Flow, tandis que les utilisateurs d'entreprise doivent obtenir des droits d'utilisation via la plateforme Vertex AI.

Imagen 4 est l’un des points forts de cette mise à niveau.Tout en conservant l’avantage d’une création d’image rapide, l’expression des détails de l’image est encore améliorée.Qu'il s'agisse de tissages complexes, de perles d'eau ou de poils d'animaux, ils peuvent tous être parfaitement rendus.

De plus, Imagen 4 est également excellent dans le traitement d'images de style photoréaliste et abstrait, et peut générer des images de haute qualité adaptées à l'impression, à l'affichage et à d'autres occasions en fonction de différents besoins. Il convient de mentionner en particulier que ses capacités de composition ont été grandement améliorées, ce qui le rend très adapté à la création de cartes de vœux, d'affiches et même de bandes dessinées. Actuellement, Imagen 4 a été intégré dans plusieurs suites telles que Gemini, Whisk, Vertex AI et les diapositives, vidéos, documents, etc. de Google Workspace pour que les utilisateurs puissent les utiliser.