Google Gemini の時代が到来!検索堀を強化しファミリーマートに力を与える、Gemini 1.5 Pro が 200 万トークンにアップグレード

特色图像

3月中旬、GoogleはGoogle I/Oが北京時間で5月15日午前1時に開催されると発表した。しかし、カンファレンスの開会時間が近づき、最も議論されるべき時間だったとき、「宿敵」OpenAI がゲームより 1 日早く飛び出し、たった 1 年間で破壊的な傑作 GPT-4o をリリースしました。 27 分、AI コンテストの新たなラウンドが始まります。「彼女の時代」へ。

Nvidia の科学者 Jim Fan が GPT-4o を評価する際に述べたように、Google I/O カンファレンスの前に OpenAI が GPT-4o をリリースしたことは、より多くの時間を稼ぐための賢明な行動です。

両社間の広報戦略の駆け引きはさておき、OpenAIの突然の強さは、GoogleのGemniも音声インタラクション分野に到達したことを示しているのかもしれない。 Google I/Oの開催に先立ち、Googleの公式アカウントはGeminiとの音声対話の動画を公開した。デモでは、Gemini は携帯電話のカメラを通じてリアルタイムでシーンを認識できるだけでなく、スムーズな音声対話も実行できます。

Googleがこのデモを公開した意図は自明だが、コメントの中にはビデオ詐欺を疑問視する声もある。結局のところ、Googleには長い間「実績」があるのだ。本日の基調講演では、ピチャイ氏は「音声インタラクション」機能の実際のテストは持ち込まなかったが、デモを通じてGPT-4oと同様の機能を改めて実証した。

具体的には、Google CEOのサンダー・ピチャイ氏と上級幹部らのグループが、約2時間の基調講演で一気に紹介した。

  • Gemini 1.5 Pro のアップデート
  • ジェミニ 2.5 フラッシュ
  • プロジェクト・アストラ
  • AI の概要
  • Veo と Imagen 3

クリックするとライブ ブロードキャストのリプレイ全体を視聴できます: [[中国語と英語] Google I/O 2024 基調講演フルバージョン | Gemini 1.5 Pro は検索エンジンを再構築し、200 万トークンにアップグレードします。

Gemini 1.5 Pro: 200 万トークンに拡張

昨日の早朝に GPT-4o がリリースされた後、誰もが基本的に「大規模モデルによるリアルタイム呼び出し」のショックから抜け出しました。これは、OpenAI が業界の競争を新たな高みに引き上げることに成功したことを意味します。したがって、Google はそうしなければなりません。も続けてください。 「最大かつ最も強力な」AI モデルとして、Gemini は会社のために優れたはしごを構築する必要があります。

今年 2 月、Google は Gemini 1.5 のリリースを発表しました。Gemini 1.5 Pro は、超ロング コンテキストで最大 100 万のトークンをサポートできます。これにより、トークン数の点で同時期の大規模モデルとの差がさらに広がりました。今日、Google はコンテキスト ウィンドウの制限を再び突破し、Pichai 氏は、Gemini 1.5 Pro のコンテキスト ウィンドウを 200 万トークンに拡張し、開発者にプライベート プレビューを提供すると発表しました。

同時に、Pichai 氏は、Gemini 1.5 Pro の改良版を世界中のすべての開発者が利用できるようにすると発表しました。また、その 100 万トークンのコンテキスト バージョンが、35 の言語で利用できる Gemini Advanced で消費者に直接利用できるようになりました。

さらにピチャイ氏は、Gemini 1.5 Proは過去数カ月間にアルゴリズムの改良を通じて強化され、コード生成、論理的推論と計画、マルチターン対話、音声と画像の理解が大幅に改善されたと述べた。 Gemini API や AI Studio では、画像や動画に加えて、Gemini 1.5 Pro は、オーディオについて推論し、システム コマンドと呼ばれる機能を通じてオーディオをガイドすることもできます。

その後、ピチャイ氏は Google Workspace での Gemini のアップデートについても紹介しました。これには、Gmail、ドキュメント、ドライブ、スライド、スプレッドシートの Gemini が Gemini 1.5 Pro にアップグレードされ、Gmail モバイル APP が新機能(メールの要約、状況に応じたスマート リプライ、 Gmail Q&A)、「Help me write」はマルチボイスライティングをサポートしています。

Gemini 1.5 Flash: 100 万トークン、超ロングコンテキスト、マルチモダリティ

Gemini 1.5 のアップデートは「これで終わり」と誰もが思ったそのとき、DeepMind CEO の Demis Hassabis がゆっくりと現場に現れ、その日最初のサプライズ、Gemini 1.5 Flash をもたらしました。

具体的には、軽量モデルの Gemini 1.5 Flash は、Gemini 1.5 Pro の改良版であり、よりコスト効率の高いサービスと画期的な長いコンテキスト ウィンドウを備え、大量、高頻度の大規模タスク向けに最適化されています。同時に、Gemini 1.5 Flash は、Gemini 1.5 Pro と同様にマルチモーダルです。つまり、テキストだけでなくオーディオ、ビデオ、画像も分析できます。

Demis Hassabis 氏は、Gemini 1.5 Flash は、集計、チャット アプリケーション、画像とビデオの字幕、長い文書や表からのデータ抽出などのタスクに優れていると述べました。これは、Gemini 1.5 Pro が蒸留によってトレーニングし、最も基本的な知識とスキルをより大きなモデルからより小さな、より効率的なモデルに移すためです。

さらに、Demis Hassabis 氏は、Gemma に関する最新情報も紹介しました。Google は、新しいアーキテクチャを使用して画期的なパフォーマンスと効率性を実現し、6 月に正式に発売される新世代のオープン人工知能イノベーション モデル Gemma 2 の発売を発表しました。打ち上げ時。

Project Astra: リアルタイム、マルチモーダル AI エージェント

Google I/O の開幕前に多くの暴露や憶測があった中で、AI アシスタント Pixie は非常に人気がありました。一部のメディアは、GoogleがGeminiを搭載したPixieと呼ばれる新しいPixel AI Assistantを発売する予定であると報じており、これはマルチモーダル機能を備え、地図やGmailなどのユーザーのデバイス上の情報を通じてよりパーソナライズされたサービスを提供できる可能性があるとのこと。

しかし、ピクシーは期待どおりには現れず、マルチモーダルな理解とリアルタイムの対話機能を備えたプロジェクト・アストラに置き換えられました。

デミス・ハサビス氏は、Googleはマルチモーダル情報を理解できるAIシステムの開発において満足のいく進歩を遂げたと述べた。しかし、リアルタイムの会話ができるまで応答時間を短縮する方法は困難です。ここ数年、チームは、対話のペースと質がより自然に感じられるように、モデルの認識、推論、会話の方法を改善することに懸命に取り組んできました。

現在、チームは Gemini に基づいてエージェントのプロトタイプを開発しています。ビデオ フレームを継続的にエンコードすることで、ビデオと音声の入力がイベント タイムラインに結合され、情報がキャッシュされて効率的に呼び出され、情報処理が高速化されます。

同時に、Google は自社の音声モデルを使用してエージェントの声を強化し、より幅広いイントネーションを実現します。使用環境を把握した後の会話での素早い応答が可能になります。

これは、昨日の早朝に OpenAI によってデモンストレーションされた ChatGPT の新バージョンを思い出さずにはいられません。これはリアルタイムの会話でもあり、状況やユーザーの要件に応じてトーンを変更できます。 Google のビデオデモとは異なり、ChatGPT はライブブロードキャストで実際のテストを実施し、オンラインでリクエストの多かった多くの質問に答えました。現在、GPT-4o に基づく ChatGPT は無料ですべてのユーザーに公開されていますが、プライバシー上の懸念により、オーディオおよびビデオ機能はまだオンラインではありません。

Veo と Imagen 3: ビデオと画像の組み合わせ

Googleはまた、最新のビデオ生成モデルVeoと高品質のテキストから画像へのモデルImagen 3を発表した。

で、Veo は、Google の最も強力なビデオ生成モデルです。ソラと競争するためにここに来たのかどうかはわかりません。

Veo は、さまざまな映画スタイルやビジュアル スタイルで、1 分を超える解像度の 1080p ビデオを生成できます。 Googleは、自然言語と視覚的意味論を深く理解しているため、同社が生成する動画はユーザーの創造的なアイデアを完璧に表現し、プロンプトのトーンを正確に捉え、より長いプロンプトで詳細を表示できると述べた。

同時に、Veo は一貫性と一貫性のあるショットを作成するため、人、動物、物体がショット全体でよりリアルに動きます。

技術レベルでは、Veo はビデオ モデルの生成における Google の長年の経験に基づいており、GQN、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet、Lumiere を統合し、アーキテクチャ、スケーリング ルール、その他のテクノロジーを組み合わせて品質と品質を向上させます。出力解像度。

同様に、Imagen 3 は Google の最高品質のテキストから画像への変換モデルです。自然言語とプロンプトの背後にある意図をよりよく理解し、長いプロンプトから細かい詳細を組み込む能力この高度な理解は、モデルがさまざまなスタイルを習得するのにも役立ちます。

AI の概要: Google 検索におけるビッグモデルの時代

Google 検索は、人々がウェブ上の膨大な情報をより深く理解し、さまざまな質問に対する答えを検索できるようにするために 25 年前に誕生しました。今日、Gemini の出現により、Google 検索は新たなレベルに押し上げられ、人々が知識を取得し、質問に答える方法が再定義されました。

これに関してGoogleは会議で、「何を考えていても、何をしなければならないとしても、質問していただければGoogleがあなたを検索してくれるだろう」と述べた。

Google は、人、場所、物に関する 1 兆を超えるリアルタイム情報を保有しており、信頼できる品質システムと組み合わせて、ウェブ上で最高のコンテンツをユーザーに提供しています。 Gemini の追加により、検索における新しいエージェント機能がさらに解放され、Google 検索の可能性がさらに広がります。

その中でも最も気になるのがAI Overviews機能の開始です。 「AI 概要を使用すると、ユーザーは質問した後にすべての情報を自分でまとめる必要がなく、Google 検索によって、より深く調べるための複数の視点やリンクを含む情報の概要がリストされます。」

Googleの検索事業担当バイスプレジデント、リズ・リード氏は会議で、「AI Overviewsは今日から米国のすべての人に提供される予定だ。今年末までにAI Overviewsは1人以上にサービスを提供する予定だ」と述べた。世界中の数十億人の Google 検索ユーザー。」

「実際、これは最初のステップにすぎません。私たちは AI 概要を使用して、より複雑な問題を解決できるようにしています。それを可能にするために、Google 検索に多段階推論を導入しました。 」

簡単に言うと、多段階推論とは、ユーザーの問題全体をさまざまな部分に分解し、どの問題をどの順序で解決する必要があるかを判断することです。Google 検索は、リアルタイムの情報とランキングに基づいて質問を推論するために最適な情報を使用します。

たとえば、ユーザーが場所について質問すると、Google 検索は、2 億 5,000 万を超える場所とその評価、レビュー、営業時間などを含む実際の情報に基づいて質問に応答しますが、回答には数分以上かかります。ユーザーが調べるには時間がかかりますが、Google 検索は数秒で完了します。

Google 検索では、基本的な情報検索に加えて、高度な推論や論理的な計画タスクも実行でき、ユーザーが食事、旅行、パーティー、約束、運動などのアクティビティの計画を完了できるようになり、ユーザーの生活が楽になります。

やっと、テキストや画像では正確に表現できない質問については、Google も解決策を提供しています。ビデオ質問機能は間もなく開始されます。これは、Google 検索のインターフェースが今後さらに多様化することを意味します。

Trillium: チップあたりのコンピューティング パフォーマンスが 4.7 倍向上

ロイター通信によると、人工知能データセンターチップ市場では、NVIDIAが約80%の市場シェアを占めており、残りの20%のほとんどはGoogleのTPUのさまざまなバージョンであるという。ただし、Google は自社でチップを販売するのではなく、クラウド コンピューティング プラットフォームを通じてチップをレンタルします。

同社の重要な事業として、新世代の TPU を発表することは Google I/O の伝統になっているようです。本日、ピチャイ氏は Google の第 6 世代 TPU Trillium をリリースし、これが同社のこれまでで最高のパフォーマンスと最も効率的な TPU であると述べました。前世代の TPU v5e と比較して、各チップの演算性能が 4.7 倍向上しました。また、2024年末までにクラウド顧客がTrilliumを利用できるようにすると約束した。

Tech Crunch によると、Google はチップの行列乗算ユニット (MXU) を拡大し、全体のクロック速度を向上させることで、部分的にパフォーマンス向上を実現しました。さらに、Google は Trillium チップのメモリ帯域幅を 2 倍にしました。

さらにピチャイ氏は、先月リリースされた同社の新しいAxionプロセッサも紹介した。これは、業界をリードするパフォーマンスとエネルギー効率を備えたGoogle初のArmベースのカスタムCPUである。

その後、ピチャイ氏は、GoogleがNvidiaと協力し、2025年にNvidiaと協力してBlackwellチップを発売することも発表した。

科学のための AI: AlphaFold 3 はオープンソースになる可能性があります

DeepMind の創設者であるデミス・ハサビス氏は、「コンピューターが人間のように考えて一般的な人工知能を構築できるかどうかを探るため、私たちは DeepMind を設立しました。」と述べています。

視覚と言語をロボットの動作に変換する RT-2 から、自然言語の指示に従ってさまざまなビデオ ゲーム環境でタスクを実行できるゲーム AI エージェント SIMA、オリンピックの問題を解決できる AIphaGeometry まで、これまでの成果を振り返ります。レベルの数学問題、GNoME で新しいマテリアルを発見することもできます。デミス・ハサビス氏は、「私たちが責任を持ってAGIを構築することができれば、それは信じられないほど人類に利益をもたらすだろうと常に信じてきました。」と述べた。

さらに、会議中、デミス・ハサビス氏は、シミュレーションにおいて前例のない精度ですべての生命分子(タンパク質、DNA、RNA、リガンドなど)の構造と相互作用を予測することに成功した、最近発売されたAlphaFold 3についても強調しました。これは、創薬標的の正確な同定などの研究開発プロジェクトにとって重要です。

実際、AlphaFold 3 が最初にリリースされたとき、Google はその完全なコードをオープンソースにする計画はなく、モデルの非営利研究をサポートする AlphaFold サーバーのパブリック インターフェイスをリリースしただけであり、世界中の研究者に門戸を開きました。

ところが、リリースまで一週間も経たないうちに、Google DeepMind の研究担当副社長が「I/O カンファレンスの開始前に、学術用途向けに AF3 モデル(ウェイトを含む)を 6 か月以内にリリースします!」と突然発表しました。 Google このオープンソース計画は、OpenAI からの圧力によるものなのか、カンファレンスを盛り上げるためのものなのか、ある日突然発表されましたが、AlphaFold 3 のオープンソースは生命と健康の分野の発展にとって広範な意味を持っています。

近い将来、HyperAI は Google AI for Science の最新のレイアウトも追跡する予定です。興味のある方は公式アカウントをフォローして詳細なレポートを入手してください。

最後に書きます

こうして2日間にわたるAIカーニバルは幕を閉じた。しかし、OpenAI と Google の対立は止まらない - GPT-5 のパフォーマンスの上限はどこにあるのでしょうか?ジェミニの超長いコンテキストの制限をさらに破ることはできるでしょうか? OpenAIの検索エンジンはGoogleの地位に影響を与えるだろうか...

Nvidia の科学者であるジム ファン氏は、「Google は正しいことを 1 つ行っています。ついに人工知能を検索ボックスに統合することに真剣に取り組んでいるのです。計画、リアルタイム ブラウジング、マルチモーダル入力、これらすべてがエージェントのような気がします。 Google の最も強力な堀は、配布にあります。Gemini が世界で最も使用されるモデルである必要はありません。」

確かに、記者会見全体を見て、筆者の一番の感想は「大型モデルの時代においても、やはり検索がGoogleの最大の強みなのかもしれない」ということだ。