Mi-mars, Google a annoncé que la conférence Google I/O se tiendrait le 15 mai à 1 h du matin, heure de Pékin. À l'approche de l'ouverture de la conférence, qui aurait dû être le moment le plus discuté, le « vieux rival » OpenAI a soudainement émergé et a publié son chef-d'œuvre disruptif GPT-4o en seulement 27 minutes, un jour plus tôt que prévu, inaugurant un nouveau cycle d'hégémonie de l'IA dans « l'ère Her ».

Comme l'a déclaré Jim Fan, scientifique de Nvidia, dans son évaluation du GPT-4o,La publication de GPT-4o par OpenAI avant la conférence Google I/O était une décision judicieuse pour gagner du temps.

En laissant de côté le jeu entre les deux parties en matière de stratégie de relations publiques, l'effort soudain d'OpenAI peut également indiquer que Gemni de Google a également atteint le stade de l'interaction vocale. Avant l'ouverture de Google I/O, le compte officiel de Google a publié une vidéo d'interaction vocale avec Gemini.Lors de la démonstration, Gemini peut non seulement reconnaître des scènes en temps réel grâce à la caméra du téléphone portable, mais également effectuer une interaction vocale fluide.

L'intention de Google de publier cette démo est évidente, mais il y a aussi des voix dans les commentaires qui se demandent si la vidéo est fausse, après tout, elle a un « enregistrement précédent ». Dans son discours d'aujourd'hui, Pichai n'a pas apporté le test réel de la fonction « interaction vocale », mais a une fois de plus démontré des capacités similaires à celles du GPT-4o via une démo.

Plus précisément, le PDG de Google, Sundar Pichai, et un groupe de dirigeants ont présenté d'un seul souffle, dans un discours d'ouverture de près de deux heures :

Mises à jour de Gemini 1.5 Pro
Gemini 2.5 Flash
Projet Astra
Aperçus de l'IA
Veo et Imagen 3
…

Cliquez pour regarder la rediffusion complète en direct :[Chinois-Anglais] Version complète de la conférence Google I/O 2024 | Gemini 1.5 Pro remodèle le moteur de recherche et passe à 2 millions de jetons !】

Gemini 1.5 Pro : extension à 2 millions de jetons

Après la sortie de GPT-4o tôt hier matin, tout le monde est pratiquement sorti du choc des « appels en temps réel sur les grands modèles ». Cela signifie également qu'OpenAI a réussi à amener la concurrence dans le secteur à un nouveau niveau, et Google doit donc suivre le rythme. En tant que modèle d’IA « le plus grand et le plus puissant » de l’entreprise, Gemini doit construire une échelle pour l’entreprise.

En février de cette année, Google a annoncé le lancement de Gemini 1.5, dont Gemini 1.5 Pro peut prendre en charge jusqu'à 1 million de jetons dans un contexte ultra-long, ce qui a creusé l'écart dans le nombre de jetons avec les modèles plus grands de la même période. Aujourd'hui, Google a une fois de plus dépassé la limite de la fenêtre contextuelle.Pichai a annoncé que la fenêtre de contexte pour Gemini 1.5 Pro sera étendue à 2 millions de jetons et sera disponible en aperçu privé pour les développeurs.

Dans le même temps, Pichai a annoncé que la version améliorée de Gemini 1.5 Pro sera disponible pour tous les développeurs du monde entier, la version contextuelle à 1 million de jetons étant désormais disponible pour les consommateurs directement dans Gemini Advanced, qui est disponible en 35 langues.

En outre, Pichai a également déclaré que Gemini 1.5 Pro a été amélioré au cours des derniers mois grâce à des algorithmes améliorés, avec de grandes améliorations dans la génération de code, le raisonnement logique et la planification, le dialogue multi-tours et la compréhension audio et image. Dans Gemini API et AI Studio, en plus des images et des vidéos,Le Gemini 1.5 Pro peut également déduire l'audio et le diriger via une fonctionnalité appelée Commandes système.

Plus tard, Pichai a également présenté les mises à jour de Gemini dans Google Workspace, notamment la mise à niveau de Gemini dans Gmail, Docs, Drive, Slides et Sheets vers Gemini 1.5 Pro, le lancement de nouvelles fonctionnalités par l'application mobile Gmail (e-mails récapitulatifs, réponses intelligentes contextuelles, questions-réponses Gmail) et la prise en charge de l'écriture multi-voix par « Aidez-moi à écrire ».

Gemini 1.5 Flash : 1 million de jetons, contexte ultra-long, multimodalité

Juste au moment où tout le monde pensait que la mise à jour de Gemini 1.5 n'était « que cela », le PDG de DeepMind, Demis Hassabis, est apparu lentement et a apporté la première surprise de la journée : Gemini 1.5 Flash.

Plus précisément, le modèle léger Gemini 1.5 Flash est une version raffinée de Gemini 1.5 Pro, optimisée pour les tâches à grande échelle avec un volume et une fréquence élevés, des services plus rentables et une fenêtre de contexte longue révolutionnaire. en même temps,Gemini 1.5 Flash, comme Gemini 1.5 Pro, est multimodal, ce qui signifie qu'il peut analyser l'audio, la vidéo et les images ainsi que le texte.

Demis Hassabis a déclaré que Gemini 1.5 Flash excelle dans des tâches telles que le résumé, les applications de chat, le sous-titrage d'images et de vidéos et l'extraction de données à partir de longs documents et tableaux. C'est parce que Gemini 1.5 Pro l'a formé par distillation, transférant les connaissances et les compétences les plus essentielles d'un modèle plus grand vers un modèle plus petit et plus efficace.

De plus, Demis Hassabis a également présenté des mises à jour sur Gemma. Google a annoncé le lancement d'une nouvelle génération de modèle d'innovation d'intelligence artificielle ouverte Gemma 2, qui adopte une nouvelle architecture pour atteindre des performances et une efficacité révolutionnaires, et lancera de nouvelles tailles lors de sa sortie officielle en juin.

Projet Astra : Agent IA multimodal en temps réel

Parmi les révélations et spéculations avant l'ouverture de Google I/O, l'assistant IA Pixie était très attendu. Certains médias ont déclaré que Google devrait lancer un nouvel assistant Pixel AI alimenté par Gemini, appelé Pixie, qui pourrait avoir des capacités multimodales et peut fournir des services plus personnalisés grâce aux informations sur l'appareil de l'utilisateur, telles que des cartes ou Gmail.

Cependant, Pixie n'est pas apparu comme prévu et a été remplacé par le projet Astra, qui dispose de capacités de compréhension multimodale et de conversation en temps réel.

Demis Hassabis a déclaré que Google a fait des progrès encourageants dans le développement de systèmes d'IA capables de comprendre des informations multimodales.Mais réduire les temps de réponse au point où des conversations en temps réel peuvent avoir lieu est un défi.Au cours des dernières années, l’équipe a travaillé dur pour améliorer la façon dont le modèle perçoit, raisonne et converse, rendant la cadence et la qualité des interactions plus naturelles.

Actuellement, l'équipe a développé des prototypes d'agents basés sur Gemini, qui accélèrent le traitement des informations en codant en continu les images vidéo, en combinant les entrées vidéo et vocales dans une chronologie des événements et en mettant en cache ces informations pour un appel efficace.

en même temps,Google a utilisé ses modèles vocaux pour améliorer la voix de l’agent afin d’avoir une gamme plus large d’intonations.Cela permet des réponses rapides dans les conversations après avoir identifié le contexte d'utilisation.

Cela ne peut que rappeler aux gens la nouvelle version de ChatGPT qu'OpenAI a présentée tôt hier matin. Il s'agit également d'une conversation en temps réel et peut changer de ton en fonction de la situation ou de la demande de l'utilisateur. Contrairement à la démonstration vidéo de Google, ChatGPT a été testé en direct sur le site et a répondu à de nombreuses questions populaires en ligne. Aujourd'hui, ChatGPT basé sur GPT-4o est désormais ouvert gratuitement à tous les utilisateurs, mais les fonctions audio et vidéo n'ont pas encore été lancées en raison de problèmes de confidentialité.

Veo et Imagen 3 : Vidéo + Image

Google a également lancé son dernier modèle de génération vidéo Veo et son modèle de conversion de texte en image de haute qualité Imagen 3.

dans,Veo est le modèle de génération vidéo le plus puissant de Google.Je ne sais pas s’il est conçu pour concurrencer Sora.

Veo peut générer des vidéos en résolution 1080p dans une variété de styles cinématographiques et visuels, avec des durées de vidéo de plus d'une minute. Google a déclaré qu'avec sa compréhension approfondie du langage naturel et de la sémantique visuelle, les vidéos qu'il génère peuvent parfaitement présenter les idées créatives de l'utilisateur, capturer avec précision le ton des invites et présenter les détails dans des invites plus longues.

En même temps, les images créées par Veo sont cohérentes et homogènes, de sorte que le mouvement des personnes, des animaux et des objets tout au long du tournage semble plus réaliste.

Sur le plan technique, Veo s'appuie sur les nombreuses années d'expérience de Google dans la génération de modèles vidéo, intégrant GQN, DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet et Lumiere, combinant l'architecture, les règles de mise à l'échelle et d'autres technologies pour améliorer la qualité et la résolution de sortie.

De même, Imagen 3 est le modèle texte-image de la plus haute qualité de Google.Capable de mieux comprendre le langage naturel et l'intention derrière les invites, et d'intégrer de petits détails dans des invites plus longues,Cette compréhension de haut niveau aide également le modèle à saisir une variété de styles.

Aperçus de l'IA : l'ère des grands modèles dans la recherche Google

Il y a 25 ans, Google Search est né pour aider les gens à mieux comprendre les informations complexes sur Internet. Les gens peuvent rechercher des réponses à diverses questions sur ce moteur. Aujourd’hui, l’émergence de Gemini a propulsé la recherche Google à un nouveau niveau, redéfinissant la manière dont les gens acquièrent des connaissances et répondent aux questions.

En réponse, Google a déclaré lors de la conférence : « Quel que soit votre esprit, quel que soit votre objectif, demandez simplement et Google recherchera pour vous. »

Google dispose de plus d'un billion d'informations en temps réel sur les personnes, les lieux et les objets, combinées à son système de qualité fiable, pour fournir aux utilisateurs le meilleur contenu du Web. L'ajout de Gemini débloque de nouvelles capacités d'agent dans la recherche et étend les possibilités de recherche Google.

Parmi eux, le plus concerné est le lancement de la fonction AI Overviews. Grâce aux aperçus IA, les utilisateurs peuvent poser une question sans avoir à rassembler toutes les informations eux-mêmes. La recherche Google vous offre un aperçu des informations, incluant plusieurs points de vue et des liens pour une exploration plus approfondie.

Liz Reid, vice-présidente de Google Search, a déclaré lors de la conférence : « AI Overviews sera disponible pour tous aux États-Unis à partir d'aujourd'hui, et il est prévu que d'ici la fin de cette année, AI Overviews servira plus d'un milliard d'utilisateurs de recherche Google dans le monde. »

En fait, ce n'est qu'une première étape. Nous améliorons les aperçus d'IA pour résoudre des problèmes plus complexes. Pour y parvenir,Nous avons introduit le raisonnement en plusieurs étapes dans la recherche Google. "

En termes simples, le raisonnement en plusieurs étapes consiste à décomposer le problème total de l'utilisateur en ses parties et à déterminer quels problèmes doivent être résolus dans quel ordre, puis,La recherche Google utilise les meilleures informations pour répondre aux questions en fonction des informations et des classements en temps réel.

Par exemple, lorsqu'un utilisateur demande un emplacement, Google Search répondra en fonction d'informations réelles, notamment plus de 250 millions de lieux, ainsi que leurs notes, avis, heures d'ouverture, etc. Ces informations prendraient aux utilisateurs des minutes, voire plus, à rechercher, mais Google Search peut les compléter en quelques secondes.

En plus de fournir une recherche d'informations de base, Google Search peut également effectuer des tâches avancées de raisonnement et de planification logique pour aider les utilisateurs à planifier des activités telles que les repas, les voyages, les fêtes, les rencontres, l'exercice, etc., facilitant ainsi la vie des utilisateurs.

enfin,Pour les questions qui ne peuvent pas être exprimées avec précision par du texte ou des images, Google a également fourni une solution : la fonction de question vidéo sera bientôt lancée.Cela signifie que l’interface de recherche de Google deviendra plus diversifiée à l’avenir.

Trillium : 4,7 fois plus de performances de calcul par puce

Selon Reuters, sur le marché des puces de centre de données d'intelligence artificielle, Nvidia représente environ 80% de parts de marché, et les 20% restants sont principalement des versions diverses de Google TPU. Cependant, Google ne vend pas lui-même de puces, mais les loue via sa plateforme de cloud computing.

En tant qu'activité importante de l'entreprise, l'annonce de la nouvelle génération de TPU semble être devenue une tradition lors de Google I/O. Aujourd'hui, Pichai a lancé le TPU Trillium de sixième génération de Google, le qualifiant de TPU le plus performant et le plus efficace de la société à ce jour.Par rapport à la génération précédente de TPU v5e, les performances de calcul de chaque puce sont améliorées de 4,7 fois.Elle a également promis de rendre Trillium disponible pour les clients cloud d'ici la fin de 2024.

Selon Tech Crunch, Google a obtenu cette amélioration des performances en partie en agrandissant l'unité de multiplication matricielle (MXU) de la puce et en augmentant la vitesse d'horloge globale. De plus, Google a doublé la bande passante mémoire de la puce Trillium.

En outre, Pichai a également ajouté que la société a lancé le mois dernier le nouveau processeur Axion, qui est le premier processeur personnalisé basé sur Arm de Google avec des performances et une efficacité énergétique de pointe.

Plus tard, Pichai a également annoncé que Google coopérerait avec Nvidia et lancerait la puce Blackwell en coopération avec Nvidia en 2025.

AI for Science : AlphaFold 3 pourrait être open source

Le fondateur de DeepMind, Demis Hassabis, a déclaré : « Nous avons fondé DeepMind pour explorer si les ordinateurs peuvent penser comme les humains et créer une intelligence artificielle générale. »

En repensant aux réalisations précédentes, de RT-2 qui convertit la vision et le langage en actions de robot, à SIMA, un agent d'IA de jeu qui peut suivre des instructions en langage naturel pour effectuer des tâches dans divers environnements de jeux vidéo, à AIphaGeometry qui peut résoudre des problèmes mathématiques de niveau Olympiade, et même GNoME qui découvre de nouveaux matériaux. « J’ai toujours cru que si nous construisons l’AGI de manière responsable, cela bénéficiera à l’humanité de manière incroyable », a déclaré Demis Hassabis.

De plus, lors de la réunion, Demis Hassabis a également mis l'accent sur le lancement récent d'AlphaFold 3, qui a prédit avec succès la structure et les interactions de toutes les molécules vivantes (protéines, ADN, ARN, ligands, etc.) avec une précision sans précédent, et a réalisé des avancées majeures dans la simulation de nombreux types différents d'interactions moléculaires, ce qui est crucial pour les projets de recherche et développement tels que la détermination précise des cibles médicamenteuses.

En fait, lorsque AlphaFold 3 a été publié pour la première fois, Google n’avait pas prévu de rendre son code source complet open source. Il a simplement publié une interface publique pour le serveur AlphaFold afin de prendre en charge la recherche non commerciale pour le modèle, ouvrant la porte aux chercheurs du monde entier.

Cependant, moins d'une semaine avant la sortie, le vice-président de la recherche chez Google DeepMind a soudainement annoncé : « Nous publierons le modèle AF3 (y compris les pondérations) dans les 6 mois pour une utilisation académique ! » Google a soudainement annoncé ce plan open source la veille de la conférence I/O. Que ce soit en raison de la pression d'OpenAI ou pour créer une dynamique pour la conférence, l'open source d'AlphaFold 3 a une importance considérable pour le développement du domaine de la vie et de la santé.

Dans un avenir proche, HyperAI suivra également la dernière mise en page de Google AI for Science. Ceux qui sont intéressés peuvent suivre le compte officiel et attendre des rapports détaillés !

Derniers mots

À ce stade, le carnaval de l’IA de deux jours a pris fin. Mais la bataille entre OpenAI et Google ne s'arrêtera pas : où se situe le plafond de performance de GPT-5 ? La limite de contexte ultra-longue de Gemini peut-elle être à nouveau dépassée ? Le moteur de recherche d'OpenAI va-t-il défier la position de Google...

Jim Fan, scientifique chez Nvidia, a commenté : « Google fait bien les choses : ils travaillent enfin dur pour intégrer l’intelligence artificielle au champ de recherche. Je pense qu’Agent : planification, navigation en temps réel et saisie multimodale, le tout depuis la page de destination. Le principal atout de Google réside dans la distribution. Gemini n’est pas forcément le meilleur modèle, il peut aussi être le modèle le plus utilisé au monde. »

En effet, en repensant à l’ensemble de la conférence de presse, mon sentiment le plus profond est que « à l’ère des grands modèles, la recherche pourrait bien être encore la plus grande confiance de Google ».

Command Palette

L'ère Google Gemini Est Arrivée ! Renforçant Le Fossé De Recherche Et Donnant Du Pouvoir À Toute La Famille, Gemini 1.5 Pro Est Mis À Niveau Vers 2 Millions De Jetons