Mitte März kündigte Google an, dass die Google I/O am 15. Mai um 1 Uhr morgens Pekinger Zeit stattfinden würde. Kurz vor der Eröffnung der Konferenz, die eigentlich die Zeit für die meisten Diskussionen hätte sein sollen, tauchte plötzlich der „alte Rivale“ OpenAI auf und veröffentlichte sein disruptives Meisterwerk GPT-4o in nur 27 Minuten, einen Tag früher als geplant, und läutete damit eine neue Runde der KI-Hegemonie in der „Her-Ära“ ein.

Wie der Nvidia-Wissenschaftler Jim Fan in seiner Bewertung von GPT-4o sagte:Die Veröffentlichung von GPT-4o durch OpenAI vor der Google I/O-Konferenz war ein kluger Schachzug, um mehr Zeit zu gewinnen.

Wenn man das Spiel zwischen den beiden Seiten in der PR-Strategie einmal beiseite lässt, könnte OpenAIs plötzlicher Einsatz auch darauf hinweisen, dass Googles Gemni ebenfalls das Stadium der Sprachinteraktion erreicht hat. Vor der Eröffnung von Google I/O veröffentlichte der offizielle Account von Google ein Video der Sprachinteraktion mit Gemini.In der Demonstration kann Gemini nicht nur Szenen in Echtzeit über die Handykamera erkennen, sondern auch eine reibungslose Sprachinteraktion durchführen.

Die Absicht von Google, diese Demo zu veröffentlichen, liegt auf der Hand, allerdings gibt es in den Kommentaren auch Stimmen, die hinterfragen, ob es sich bei dem Video um eine Fälschung handelt, schließlich habe es eine „Vorgeschichte“. In seiner heutigen Keynote-Rede führte Pichai zwar keinen eigentlichen Test der Funktion „Sprachinteraktion“ durch, demonstrierte jedoch anhand einer Demo erneut ähnliche Fähigkeiten wie GPT-4o.

Konkret stellten Google-CEO Sundar Pichai und eine Gruppe von Führungskräften in einer fast zweistündigen Grundsatzrede in einem Atemzug vor:

Gemini 1.5 Pro-Updates
Gemini 2.5 Flash
Projekt Astra
KI-Übersichten
Veo und Imagen 3
…

Klicken Sie hier, um die vollständige Live-Wiederholung anzusehen:[Chinesisch-Englisch] Vollständige Version der Google I/O 2024 Keynote-Konferenz | Gemini 1.5 Pro gestaltet die Suchmaschine neu und rüstet auf 2 Millionen Token auf!】

Gemini 1.5 Pro: Erweiterung auf 2 Millionen Token

Nach der Veröffentlichung von GPT-4o gestern früh ist der Schock der „großen Modell-Echtzeitaufrufe“ im Grunde genommen bei allen überwunden. Dies bedeutet auch, dass OpenAI den Wettbewerb in der Branche erfolgreich auf ein neues Niveau gebracht hat und Google daher mithalten muss. Als „größtes und leistungsstärkstes“ KI-Modell des Unternehmens muss Gemini eine Leiter für das Unternehmen bauen.

Im Februar dieses Jahres kündigte Google die Einführung von Gemini 1.5 an, wobei Gemini 1.5 Pro bis zu 1 Million Token im Ultralong-Kontext unterstützen kann, was die Lücke bei der Anzahl der Token zu den größeren Modellen des gleichen Zeitraums noch vergrößerte. Heute hat Google erneut die Kontextfenstergrenze durchbrochen.Pichai gab bekannt, dass das Kontextfenster für Gemini 1.5 Pro auf 2 Millionen Token erweitert und Entwicklern in einer privaten Vorschau zur Verfügung stehen wird.

Gleichzeitig gab Pichai bekannt, dass die verbesserte Version von Gemini 1.5 Pro allen Entwicklern weltweit zur Verfügung stehen wird, wobei die Kontextversion mit 1 Million Token jetzt für Verbraucher direkt in Gemini Advanced verfügbar ist, das in 35 Sprachen verfügbar ist.

Darüber hinaus sagte Pichai auch, dass Gemini 1.5 Pro in den letzten Monaten durch verbesserte Algorithmen erweitert wurde, mit großen Verbesserungen bei der Codegenerierung, dem logischen Denken und Planen, dem mehrstufigen Dialog sowie dem Audio- und Bildverständnis. In Gemini API und AI Studio können neben Bildern und Videos auchDer Gemini 1.5 Pro kann auch Audio ableiten und über eine Funktion namens „System Commands“ weiterleiten.

Später stellte Pichai auch die Updates von Gemini in Google Workspace vor, darunter, dass Gemini in Gmail, Docs, Drive, Slides und Sheets auf Gemini 1.5 Pro aktualisiert wird, die mobile Gmail-App neue Funktionen eingeführt hat (Zusammenfassungs-E-Mails, kontextbezogene intelligente Antworten, Gmail-Fragen und -Antworten) und „Help me write“ das Schreiben in mehreren Stimmen unterstützt.

Gemini 1.5 Flash: 1 Million Token, ultralanger Kontext, Multimodalität

Gerade als alle dachten, dass das Update von Gemini 1.5 „genau das war“, tauchte DeepMind-CEO Demis Hassabis langsam auf und brachte die erste Überraschung des Tages mit – Gemini 1.5 Flash.

Insbesondere das leichte Modell Gemini 1.5 Flash ist eine verfeinerte Version von Gemini 1.5 Pro, optimiert für groß angelegte Aufgaben mit hohem Volumen und hoher Frequenz, kostengünstigeren Diensten und einem bahnbrechenden langen Kontextfenster. gleichzeitig,Gemini 1.5 Flash ist wie Gemini 1.5 Pro multimodal, d. h. es kann Audio, Video und Bilder sowie Text analysieren.

Demis Hassabis sagte, dass Gemini 1.5 Flash sich hervorragend für Aufgaben wie Zusammenfassungen, Chat-Anwendungen, Bild- und Videountertitelung und das Extrahieren von Daten aus langen Dokumenten und Tabellen eignet. Dies liegt daran, dass Gemini 1.5 Pro es durch Destillation trainiert hat und dabei die wichtigsten Kenntnisse und Fähigkeiten von einem größeren Modell auf ein kleineres, effizienteres Modell übertragen hat.

Darüber hinaus stellte Demis Hassabis auch Neuigkeiten zu Gemma vor. Google hat die Einführung einer neuen Generation des offenen Innovationsmodells für künstliche Intelligenz Gemma 2 angekündigt, das eine neue Architektur verwendet, um bahnbrechende Leistung und Effizienz zu erreichen, und bei seiner offiziellen Veröffentlichung im Juni in neuen Größen auf den Markt kommen wird.

Projekt Astra: Multimodaler KI-Agent in Echtzeit

Unter den Enthüllungen und Spekulationen vor der Eröffnung von Google I/O wurde der KI-Assistent Pixie mit großer Spannung erwartet. Einige Medien berichteten, dass Google voraussichtlich einen neuen Pixel-KI-Assistenten namens Pixie auf den Markt bringen wird, der auf Gemini basiert. Dieser soll über multimodale Fähigkeiten verfügen und durch Informationen auf dem Gerät des Benutzers personalisiertere Dienste wie Karten oder Gmail bereitstellen können.

Pixie erschien jedoch nicht wie erwartet und wurde durch Project Astra ersetzt, das über multimodales Verständnis und Echtzeit-Konversationsfunktionen verfügt.

Demis Hassabis sagte, dass Google ermutigende Fortschritte bei der Entwicklung von KI-Systemen gemacht habe, die multimodale Informationen verstehen können.Doch die Reaktionszeiten so weit zu verkürzen, dass Gespräche in Echtzeit möglich sind, ist eine Herausforderung.In den letzten Jahren hat das Team hart daran gearbeitet, die Wahrnehmung, Argumentation und Kommunikation des Modells zu verbessern, sodass sich Rhythmus und Qualität der Interaktionen natürlicher anfühlen.

Derzeit hat das Team auf Gemini basierende Agentenprototypen entwickelt, die die Informationsverarbeitung beschleunigen, indem sie Videobilder kontinuierlich kodieren, Video- und Spracheingaben in einer Ereigniszeitleiste kombinieren und diese Informationen für einen effizienten Anruf zwischenspeichern.

gleichzeitig,Google nutzte seine Sprachmodelle, um die Stimme des Agenten zu verbessern und ihm eine größere Bandbreite an Intonationen zu verleihen.Dies ermöglicht schnelle Antworten in Gesprächen, nachdem der Nutzungskontext identifiziert wurde.

Dies erinnert die Leute unweigerlich an die neue Version von ChatGPT, die OpenAI gestern früh vorgeführt hat. Es handelt sich außerdem um eine Echtzeit-Konversation und der Ton kann je nach Situation oder Benutzeranforderung geändert werden. Im Gegensatz zur Videodemonstration von Google wurde ChatGPT live vor Ort getestet und beantwortete viele häufig gestellte Fragen online. Heute steht ChatGPT auf Basis von GPT-4o allen Benutzern kostenlos zur Verfügung, die Audio- und Videofunktionen wurden aus Datenschutzgründen jedoch noch nicht eingeführt.

Veo und Imagen 3: Video + Bild

Google hat außerdem sein neuestes Videogenerationsmodell Veo und das hochwertige Text-zu-Bild-Modell Imagen 3 auf den Markt gebracht.

In,Veo ist das leistungsstärkste Modell zur Videogenerierung von Google.Ich weiß nicht, ob es als Konkurrenz zu Sora konzipiert ist.

Veo kann Videos mit einer Auflösung von 1080p in einer Vielzahl von filmischen und visuellen Stilen und einer Videolänge von über einer Minute erstellen. Google sagte, dass die generierten Videos dank seines tiefen Verständnisses der natürlichen Sprache und der visuellen Semantik die kreativen Ideen des Benutzers perfekt darstellen, den Ton der Aufforderungen genau erfassen und die Details in längeren Aufforderungen darstellen können.

Gleichzeitig ist das von Veo erstellte Filmmaterial konsistent und stimmig, sodass die Bewegungen von Menschen, Tieren und Objekten während der Aufnahme realistischer erscheinen.

Auf technischer Ebene basiert Veo auf Googles langjähriger Erfahrung bei der Generierung von Videomodellen, der Integration von GQN, DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet und Lumiere und der Kombination von Architektur, Skalierungsregeln und anderen Technologien zur Verbesserung der Qualität und Ausgabeauflösung.

Ebenso ist Imagen 3 das Text-zu-Bild-Modell von Google mit der höchsten Qualität.Kann die natürliche Sprache und die Absicht hinter Eingabeaufforderungen besser verstehen und kleine Details in längere Eingabeaufforderungen integrieren.Dieses umfassende Verständnis hilft dem Modell auch dabei, verschiedene Stile zu erfassen.

KI-Übersichten: Die Ära der großen Modelle in der Google-Suche

Vor 25 Jahren wurde Google Search entwickelt, um Menschen dabei zu helfen, die komplexen Informationen im Internet besser zu verstehen. Mit dieser Suchmaschine können Benutzer nach Antworten auf verschiedene Fragen suchen. Heute hat das Aufkommen von Gemini die Google-Suche auf eine neue Ebene gehoben und die Art und Weise, wie Menschen Wissen erwerben und Fragen beantworten, neu definiert.

Als Antwort darauf sagte Google auf der Konferenz: „Was auch immer Sie vorhaben, was auch immer Sie erreichen möchten, fragen Sie einfach, und Google wird für Sie suchen.“

Google verfügt über mehr als eine Billion Echtzeitinformationen zu Personen, Orten und Dingen und bietet seinen Nutzern in Kombination mit seinem bewährten Qualitätssystem die besten Inhalte im Web. Durch die Hinzufügung von Gemini werden weitere neue Agentenfunktionen bei der Suche freigeschaltet und die Möglichkeiten der Google-Suche erweitert.

Am meisten Anlass zur Sorge gibt dabei die Einführung der Funktion „AI Overviews“. „Mit AI Overviews können Nutzer Fragen stellen, ohne alle Informationen selbst zusammentragen zu müssen. Die Google-Suche bietet einen Überblick über die Informationen, einschließlich verschiedener Perspektiven und Links für eine tiefere Erkundung.“

Liz Reid, Vizepräsidentin von Google Search, sagte auf der Konferenz: „AI Overviews wird ab heute für jeden in den Vereinigten Staaten verfügbar sein und es wird erwartet, dass AI Overviews bis Ende dieses Jahres mehr als einer Milliarde Google-Suchnutzer weltweit bedienen wird.“

„Tatsächlich ist dies nur der erste Schritt. Wir entwickeln KI-Übersichten, um komplexere Probleme zu lösen. Um dies zu ermöglichen,Wir haben mehrstufiges Denken in die Google-Suche eingeführt. "

Vereinfacht ausgedrückt geht es beim mehrstufigen Denken darum, das Gesamtproblem des Benutzers in seine Teile zu zerlegen und zu bestimmen, welche Probleme in welcher Reihenfolge gelöst werden müssen.Die Google-Suche verwendet die besten Informationen, um Fragen auf der Grundlage von Echtzeitinformationen und Rankings zu beantworten.

Wenn ein Nutzer beispielsweise nach einem Standort fragt, antwortet Google Search auf Grundlage realer Informationen, darunter über 250 Millionen Orte sowie deren Bewertungen, Rezensionen, Öffnungszeiten usw. Die Recherche dieser Informationen würde für den Nutzer Minuten oder sogar länger dauern, Google Search kann sie jedoch in Sekundenschnelle durchführen.

Neben der Bereitstellung grundlegender Informationsabfrage kann Google Search auch erweiterte Denk- und logische Planungsaufgaben ausführen, um Benutzern bei der Planung von Aktivitäten wie Essen, Reisen, Partys, Verabredungen, Sport usw. zu helfen und ihnen so das Leben zu erleichtern.

endlich,Auch für Fragen, die sich weder mit Text noch mit Bildern präzise ausdrücken lassen, hat Google eine Lösung parat: Die Videofrage-Funktion wird in Kürze eingeführt.Dies bedeutet, dass die Google-Suchoberfläche in Zukunft vielfältiger wird.

Trillium: 4,7-mal mehr Rechenleistung pro Chip

Laut Reuters hat Nvidia auf dem Markt für Chips für Rechenzentren mit künstlicher Intelligenz einen Marktanteil von etwa 801.000 Tonnen und die restlichen 201.000 Tonnen sind größtenteils verschiedene Versionen von Google TPU. Google selbst verkauft jedoch keine Chips, sondern vermietet sie über seine Cloud-Computing-Plattform.

Da es sich bei Google I/O um einen wichtigen Geschäftsbereich des Unternehmens handelt, scheint die Ankündigung der neuen TPU-Generation zur Tradition geworden zu sein. Heute hat Pichai das TPU Trillium der sechsten Generation von Google herausgebracht und es als das bislang leistungsstärkste und effizienteste TPU des Unternehmens bezeichnet.Im Vergleich zur vorherigen Generation TPU v5e ist die Rechenleistung jedes Chips um das 4,7-fache verbessert.Außerdem wurde versprochen, Trillium bis Ende 2024 für Cloud-Kunden verfügbar zu machen.

Laut Tech Crunch erreichte Google die Leistungssteigerung teilweise durch die Vergrößerung der Matrix Multiplication Unit (MXU) des Chips und die Erhöhung der Gesamttaktfrequenz. Darüber hinaus hat Google die Speicherbandbreite des Trillium-Chips verdoppelt.

Darüber hinaus fügte Pichai hinzu, dass das Unternehmen letzten Monat den neuen Axion-Prozessor herausgebracht habe, Googles erste kundenspezifische Arm-basierte CPU mit branchenführender Leistung und Energieeffizienz.

Später gab Pichai außerdem bekannt, dass Google mit Nvidia zusammenarbeiten und 2025 in Kooperation mit Nvidia den Blackwell-Chip auf den Markt bringen werde.

KI für die Wissenschaft: AlphaFold 3 ist möglicherweise Open Source

DeepMind-Gründer Demis Hassabis sagte: „Wir haben DeepMind gegründet, um zu erforschen, ob Computer wie Menschen denken und eine allgemeine künstliche Intelligenz entwickeln können.“

Ein Rückblick auf bisherige Erfolge: von RT-2, das Sehen und Sprache in Roboteraktionen umwandelt, über SIMA, einen KI-Agenten für Spiele, der natürlichen Sprachanweisungen folgen kann, um Aufgaben in verschiedenen Videospielumgebungen auszuführen, bis hin zu AIphaGeometry, das mathematische Probleme auf Olympiade-Niveau lösen kann, und sogar GNoME, das neue Materialien entdeckt. „Ich war immer davon überzeugt, dass die Menschheit unglaubliche Vorteile daraus ziehen wird, wenn wir AGI verantwortungsvoll aufbauen“, sagte Demis Hassabis.

Darüber hinaus hob Demis Hassabis auf dem Treffen auch das kürzlich eingeführte AlphaFold 3 hervor, das die Struktur und Wechselwirkungen aller Lebensmoleküle (Proteine, DNA, RNA, Liganden usw.) mit beispielloser Genauigkeit erfolgreich vorhersagte und große Durchbrüche bei der Simulation vieler verschiedener Arten molekularer Wechselwirkungen erzielte, was für Forschungs- und Entwicklungsprojekte wie die genaue Bestimmung von Arzneimittelzielen von entscheidender Bedeutung ist.

Tatsächlich hatte Google bei der Erstveröffentlichung von AlphaFold 3 keine Pläne, den gesamten Code als Open Source freizugeben. Es wurde lediglich eine öffentliche Schnittstelle für den AlphaFold-Server freigegeben, um die nichtkommerzielle Forschung für das Modell zu unterstützen und so die Tür für Forscher auf der ganzen Welt zu öffnen.

Doch weniger als eine Woche vor der Veröffentlichung verkündete der Vizepräsident für Forschung bei Google DeepMind plötzlich: „Wir werden das AF3-Modell (einschließlich Gewichte) innerhalb von 6 Monaten für den akademischen Gebrauch veröffentlichen!“ Google kündigte diesen Open-Source-Plan plötzlich am Tag vor der I/O-Konferenz an. Ob aufgrund des Drucks von OpenAI oder um Schwung für die Konferenz zu gewinnen: Die Open Source von AlphaFold 3 hat weitreichende Bedeutung für die Entwicklung im Bereich Leben und Gesundheit.

In naher Zukunft wird HyperAI auch das neueste Layout von Google AI for Science verfolgen. Interessierte können dem offiziellen Account folgen und auf ausführliche Berichte warten!

Letzte Worte

An diesem Punkt ging der zweitägige KI-Karneval zu Ende. Aber der Kampf zwischen OpenAI und Google wird nicht enden – wo liegt die Leistungsgrenze von GPT-5? Kann das ultralange Kontextlimit von Gemini erneut durchbrochen werden? Wird die Suchmaschine von OpenAI die Position von Google in Frage stellen?

Nvidia-Wissenschaftler Jim Fan kommentierte: „Google macht eines richtig: Sie arbeiten endlich intensiv daran, künstliche Intelligenz in das Suchfeld zu integrieren. Ich denke, Agent: Planung, Echtzeit-Browsing und multimodale Eingabe – alles von der Zielseite aus. Googles größte Stärke liegt in der Verbreitung. Gemini muss nicht das beste Modell sein, es kann auch das weltweit am häufigsten verwendete Modell sein.“

Wenn ich auf die gesamte Pressekonferenz zurückblicke, habe ich tatsächlich das Gefühl, dass „im Zeitalter der großen Modelle die Suche möglicherweise immer noch Googles größtes Vertrauen ist.“

Command Palette

Die Ära Von Google Gemini Ist Da! Gemini 1.5 Pro Stärkt Den Suchgraben Und Gibt Der Gesamten Familie Mehr Macht. Es Wird Auf 2 Millionen Token aktualisiert.