Google I/O に参加しますか? OpenAIがいつかライブブロードキャストを先取り、ChatGPTに通話機能が搭載される可能性

2年前

今週のAIサークルはとても賑やかになりそうです。

現地時間の 5 月 13 日に、OpenAI は ChatGPT と GPT-4 のアップデートをライブでリリースします。翌日、予定通り Google I/O が開催されました。 Google の毎年恒例のイベントである I/O カンファレンスとは異なり、今回の OpenAI の一時的なリリースは注目を集めることが非常に意図されています。長年絡み続けてきた“宿敵”たちが今回どのように動くのか？両者の起源を見直して、大胆な推測をしてみるのもいいかもしれません。

複数ラウンドの対立、激しい戦闘が続いている

OpenAI が大ヒットして以来、Google は「ハードコア」、「始めるのが遅い」、「追いついてくる」というレッテルを貼られてきました。最も探索に値するものの 1 つは、「AI 黄埔陸軍士官学校」というタイトルです。褒め言葉のように見えるものは、実はGoogleからの「一握りの苦い涙」なのです。

誰もが知っているように、OpenAI の王座の基礎を築いた ChatGPT は、Transformer アーキテクチャに基づいています。Transformer は、Google が論文「Attending Is All You Need」で提案した画期的なアーキテクチャです。さらに、ChatGPT リリースインターフェースの謝辞には、多くの元 Google 上司も登場しました。その後、多くの Google の主要従業員が OpenAI に転職しました。さらに興味深いのは、Google が「反撃」しようとするたびに、必ず小さなエピソードがいくつかあります。

2023 年 2 月、Google は ChatGPT に応じて Bard を提案しました。しかし、公開直後、デモ中に事実誤認があったことが判明――。

「ジェームズ・ウェッブ宇宙望遠鏡 (JWST) について、9 歳の子供に何と言えますか?」という質問に対して、バード氏が出した答えの 1 つは、「太陽系外惑星の最初の写真は、Photo by JWST によって撮影されたものです」でした。しかし、ハーバード・スミソニアン天体物理学センターの研究者グラント・トレンブレイ氏は、2004年に初めて系外惑星の写真を撮影したのはヨーロッパ南天天文台の超大型望遠鏡（VLT）だったと指摘する。

2023 年 5 月の I/O カンファレンスで、Google は Bard の製品アップグレードをデモしました。たとえば、より多くの言語をサポートし、画像情報を認識し、Google アプリケーションや一部の外部アプリケーションに接続します。同時に Google は、数学、コーディング、推論、自然言語生成が向上した GPT-4 のベンチマーク製品である PaLM2 もリリースしました。

Google Healthの研究チームもこれをベースに、医学知識の検索や医学用語の解読などの機能を備えたMed-PaLM 2を作成した。当然のことながら、このモデルは GPT に対してベンチマークされており、アプリケーションも Microsoft に対してベンチマークされています。Google はその AI 機能をコピーライティングやテーブル作成などのオフィスシナリオに統合し、Google Workspace を開始しました。

その後、多くのネチズンがPaLM 2とGPT-4をさまざまな形で比較し、OpenAIがまだ先だという声が強まった。

2023 年 12 月、Google は「最大かつ最も強力な」AI モデル Gemini をリリースしました。デモ効果は確かに素晴らしいもので、性能的にはGPT-4に匹敵しますが、デモビデオは後処理されており、一部誇張されていることが判明しました。

2024 年 2 月 8 日、Google は Bard の名前が Gemini に正式に変更されると発表しました。最強モデルの Gemini Ultra を搭載したチャットボット Gemini Advanced も正式にオープンしており、ChatGPT と同じ月額 20 ドルのレンタル料金が設定されており、まさに競争に参加しているようなものです。このリリースのより重要な意義は、Google AI をモデル名でもあり製品名でもある Gemini に統合することです。

最も強力な Gemini 1.0 Ultra のリリースからわずか数日後の 2024 年 2 月 16 日、Google は Gemini 1.5 を一気にリリースしました。その中でも、Gemini 1.5 Pro は、超長いコンテキストに対して最大 100 万個のトークンをサポートでき、トークン数で GPT-4 を上回り、オーディオやビデオ処理などのタスクで優れたパフォーマンスを実現します。 Sora がいなかったら、Gemini 1.5 はおそらく AI 界隈で長い間話題になっていたでしょう。

Gemini 1.5 のリリースからわずか数時間後、OpenAI は Vincent ビデオモデル Sora をリリースしました。前例のないビデオ生成機能で、1 分間のデモビデオがすぐにステージの中央に立ち、Gemini の人気を直接奪いました。

このラウンドでは技術的な比較はなく、OpenAI が Sora の助けによりその地位をさらに強化したのは明らかです。

OpenAIはまた人気を断ち切りたいのか？

5月1日にXネチズンのジミー・アップルズがこのニュースを伝えたことは注目に値する。OpenAI の検索エンジンは 5 月 9 日にリリースされる可能性があります。このネチズンはかつて GPT-4 のリリース日を正確に予測していました。その後、発売日が5月13日に延期されたと発表した。

5 月 8 日、ブルームバーグはまた、OpenAI が生成型 AI の質問と回答の手法を通じて新しい検索エクスペリエンスをもたらす新しい検索エンジンを社内で開発していると報じました。ブルームバーグは、この検索エンジンの特徴の一つは、質問に答えるために文字や画像を使用できることだと述べた。ブルームバーグは、OpenAI の検索製品は同社の主力製品である ChatGPT の拡張機能であり、ChatGPT が引用を含む情報を Web から直接取得できるようにしていると報じています。以前のレポートで、The Verge は次のニュースを伝えました。OpenAIはAI検索製品の迅速な立ち上げを促進するため、Googleの検索部門からエンジニアを引き抜いている。

今回、OpenAI はすでに安定していた検索ビジネスに攻撃を開始します。これは「黄龍に直行」のようなものでしょうか。

しかし、OpenAIは5月11日、13日のカンファレンスではChatGPTとGPT-4のアップデートのみが行われると公式ツイートし、「検索エンジン」については一言も触れなかった。しかし、Google はすでに Google I/O カンファレンスを 5 月 14 日に開催すると発表しているため、5 月 13 日という日付は非常に興味深いものです。

その後、サム・アルトマンが直接自分のカードを公開した——GPT-5 ではなく、検索エンジンでもありません。しかし、私たちは人々が楽しめると思う新しいものを開発するために常に懸命に取り組んでいます。それは私にとって魔法のようなものです。

Sam Altman 氏が 2 つの間違った回答を削除した後も、ネチズンは依然として「OpenAI が何をリリースするのか?」に熱心であり、音声インタラクションを含むさらなる手がかりが明らかになりました。

The Information によると、OpenAI は、オブジェクトの会話と認識の両方が可能で、より高速かつ正確な画像と音声の理解を提供できる新しいモデルをユーザーに実証しました。 The Verge によると、開発者のアナナイ・アローラ氏は、ChatGPTには通話機能がある可能性があると述べた。 Arora は、OpenAI がリアルタイムのオーディオおよびビデオ通信用のサーバーを提供していたという証拠も発見しました。

さらに、Halidの共同創設者であるindigo氏は自身のTwitter(X)アカウントでより詳細な予測を発表し、GPT-4.5について言及しただけでなく、OpenAIの新しいAIアシスタントがフルボイスインタラクションをサポートすると予測した。

しかし、ある視点から見ると、Sam Altman 氏は「検索エンジン」については否定しましたが、ChatGPT に「検索バフ」を追加しないとは言いませんでした。実際、最近、ネチズンは OpenAI が検索分野に参入したことを示す多くの証拠を発見しました。

まず、元Mila研究者でMIT講師のLior S氏がニュースを伝えた。OpenAI の最新の SSL 証明書ログには、search.chatgpt.com サブドメインが作成されたことが示されています。

現在、ドメイン名にアクセスすると、404 または間違ったドメイン名ではなく「見つかりません」と表示されます。

一部の国内ネチズンがグレースケールテストを受け、「Cyber Zen Heart」は公式アカウントでテスト結果を公開しました。

ChatGPTの回答は依然として非常に正確であることがわかり、「Cyber Zen Heart」は回答速度も許容範囲内であることを示しています。しかし、リアルタイム情報の取得という点では、ChatGPT には欠点がありました。CyberZen はビットコインの価格を検索し、Google で検索した価格と比較しました。

さらに、一部のネチズンは、OpenAI の公式 AI 検索ページであると主張するデモを Twitter に直接投稿しましたが、これはグレースケールテストインターフェイスとは大きく異なります。

現時点では、OpenAI の検索製品がグレースケールテストの形で最終的にすべての人に適合するかどうかはまだ不明です。全体として、OpenAI が直面する競合相手は Google だけでなく、Perplexity AI も含まれます。実は、ある意味、Perplexity AIはOpenAIが検索ビジネスにおいて直接ベンチマークすべき製品だ。

現在、「世界初の会話型検索エンジン」をうたうこのAIツールは、黄仁訓氏の支援を受け、ベゾス氏ら著名人らの出資を受けて注目を集めているが、その特徴はChatGPT形式の質問を組み合わせていることだ。と回答、従来の検索エンジンのリンクリストと組み合わせます。

OpenAIはAI時代の検索エンジン市場競争にどのような形で参加していくのでしょうか？まずは5月13日の記者発表会でChatGPTの検索機能が公開されるのか楽しみに待ちましょう。

Google I/O が主導的な役割を果たすためには Gemini に依存する必要があるでしょうか?

OpenAIの記者会見で大幅なアップデートが意図的に行われるのか意図せずに公開されるのかはまだ不明だが、サプライズがあればGoogleは間違いなくライブ放送を視聴すると思うが、ピチャイ氏がすぐに対応して披露できるかどうかは分からない。 1 日後に Google にアップします。/O カンファレンスでタイムリーに反撃しますか?

それに比べて、年次 Google I/O カンファレンスには謎が欠けています。公式ページで発表されたカンファレンスの焦点は、モバイル、Web、ML/AI、クラウドです。

いつものように、同社CEOのSundar Pichai氏は基調講演で、Androidのアップデート、新世代のハードウェア製品、AI分野におけるGoogleの最新の進歩と成果、AI機能とGoogleのエコシステム全体との統合について共有する予定だ。

* Gemini は Google のエコシステム全体を強化します

Gemini が今年の Google I/O カンファレンスのハイライトになることは間違いありません。今年の 2 月にアップデートされたばかりの Gemini 1.5 は、すでにコンテキストの長さを 100 万レベルに増やしており、パフォーマンスの点で GPT-4 と競合できます。したがって、Google の次のステップは、Gemini をその検索、写真およびビデオツール、Google マップ、および Gmail や Google ドキュメントなどのワークスペースツールとどのように統合するかという実装の問題を検討することです。

さらに、Google は自社の AI 機能を Google アシスタントに徐々に導入してきましたが、Gemini の強力な機能によって、より高度で人間に近い自然言語音声アシスタントを作成できるでしょうか。

注目すべきは、先進的な大型モデルとハードウェア事業の両方を持つ企業として、GeminiとGoogle自身のPixelがどのような火花を散らすことができるかということです。昨年、Pixieと呼ばれるAIアシスタントがPixel 9に登場するかもしれないというニュースがありました。

昨年のGoogle I/Oカンファレンスで発表されたPixel 8には、すでにGoogleのAI機能が搭載されている。 Googleの自社開発チップTensor G3プロセッサを搭載しており、オーディオマジック消しゴム、ベストテイク、Webページの翻訳、読み上げなどの機能を備えている。たとえば、ベストテイク機能を使用すると、複数のグループ写真を組み合わせて、さまざまな写真からさまざまな人々の表情を選択して、完璧なグループ写真を作成できます。

いつものように、今年のカンファレンスではPixel 9がリリースされる予定ですが、現時点での発表ではPixel 8aの方が人気があります。AIアシスタントPixieが発表されるかどうかについては、待たなければなりません。見る。

さらに、今年4月には、AppleとGoogleがiOSシステムにGeminiを統合するために提携しているというニュースが海外メディアで報じられたが、両社ともこのニュースが事実であれば、2社が競合していると見なすことができる。複数の企業が「世紀の大協力」を行った。ピチャイ氏が Google I/O カンファレンスで関連ニュースを発表するのだろうか。

* Android および AR/XR

Android は Google の礎として、Google I/O カンファレンスでは常に欠かせないコンテンツです。今年は Android 15 が発表され、開発者プレビューと初期ベータ版がリリースされ、ピチャイ氏はスピーチでシステムの主要なアップデートをさらに紹介することになるでしょう。以前に公開された情報によると、Android AutoをベースにしたスマートカーおよびスマートウォッチソフトウェアWear OSも導入される予定だという。

さらに、一部のメディアは、ピチャイ氏がGoogleのARソフトウェアに関するニュースを共有し、同社がSamsungや他のヘッドマウントディスプレイメーカー向けに開発したAndroid XRプラットフォームを紹介する予定であると報じた。今年初めの報道によると、GoogleのARハードウェアチームは今回の人員削減で最も大きな打撃を受けたため、一部のメディアは独自のARハードウェアの開発を諦め、OEM協力モデルに全面的に取り組んでいるのではないかと推測していた。 Googleはソフトウェアレベルに重点を置く。

今年の Google I/O カンファレンスでは、ピチャイ氏の基調講演に加えて、Google AI の新開発、Android の新開発、生成 AI 時代の ML フレームワークなど複数のテーマのフォーラムが開催されますが、ライブブロードキャストは提供されません、講演後に関連するビデオ資料も公開される予定です。HyperAI も引き続き注目して、AI に関する詳細なレポートを提供していきますので、ご期待ください。

最後に書きます

かつては産業が国力を測る重要な尺度であったが、現在では技術力も交渉のテーブルに加わり、大国間のゲームの交渉材料にさえなっている。特に大型モデルの人気が高い状況では、シリコンバレーの巨人の一挙手一投足が大きな注目を集めている。 2022年の終わりに、OpenAI、Microsoft、Googleなどがいつも突然大ヒットアップデートをリリースしたことを今でも覚えています。目が覚めたら、AI界は再び変化しましたか？

2024 年に入って、技術競争からアプリケーションシナリオの開発まで、既存の強豪から新たなユニコーンまで、戦いは激化し続けます。市場を支配し続けることができるのは、堀のある企業でなければなりません。ピラミッドの頂点にいる偉い人たちがどう戦うのか、一緒にベンチを動かして神々の戦いを見守りましょう！

参考文献:
1.https://36kr.com/p/2660898993824512
2.https://techcrunch.com/2024/05/09/google-i-o-2024-what-to-expect/
3.https://www.spiceworks.com/tech/tech-general/articles/google-io-2024-expectations

4.https://www.theverge.com/2024/5/11/24154307/openai-multimodal-digital-assistant-chatgpt-phone-calls

Google I/O に参加しますか? OpenAIがいつかライブブロードキャストを先取り、ChatGPTに通話機能が搭載される可能性

2年前

今週のAIサークルはとても賑やかになりそうです。

複数ラウンドの対立、激しい戦闘が続いている

2023 年 2 月、Google は ChatGPT に応じて Bard を提案しました。しかし、公開直後、デモ中に事実誤認があったことが判明――。

その後、多くのネチズンがPaLM 2とGPT-4をさまざまな形で比較し、OpenAIがまだ先だという声が強まった。

このラウンドでは技術的な比較はなく、OpenAI が Sora の助けによりその地位をさらに強化したのは明らかです。

OpenAIはまた人気を断ち切りたいのか？

今回、OpenAI はすでに安定していた検索ビジネスに攻撃を開始します。これは「黄龍に直行」のようなものでしょうか。

一部の国内ネチズンがグレースケールテストを受け、「Cyber Zen Heart」は公式アカウントでテスト結果を公開しました。

Google I/O が主導的な役割を果たすためには Gemini に依存する必要があるでしょうか?

* Gemini は Google のエコシステム全体を強化します

* Android および AR/XR

最後に書きます

4.https://www.theverge.com/2024/5/11/24154307/openai-multimodal-digital-assistant-chatgpt-phone-calls

Command Palette

Google I/O に参加しますか? OpenAIがいつかライブブロードキャストを先取り、ChatGPTに通話機能が搭載される可能性

複数ラウンドの対立、激しい戦闘が続いている

OpenAIはまた人気を断ち切りたいのか？

Google I/O が主導的な役割を果たすためには Gemini に依存する必要があるでしょうか?

最後に書きます

Command Palette

Google I/O に参加しますか? OpenAIがいつかライブブロードキャストを先取り、ChatGPTに通話機能が搭載される可能性

複数ラウンドの対立、激しい戦闘が続いている

OpenAIはまた人気を断ち切りたいのか？

Google I/O が主導的な役割を果たすためには Gemini に依存する必要があるでしょうか?

最後に書きます

関連 ニュース

ChatGPTは数億人のユーザーを誇りますが、有料コンバージョン率は10%未満です。AIを持続可能な収益につなげるにはどうすればいいのでしょうか？

200億ドルの賭け！xAIはマスク氏の巨額の資金をOpenAIに賭けるが、将来の商業的実現可能性は依然として最大の疑問符となっている。

オンラインチュートリアル | SAM 3 は、2 倍のパフォーマンス向上によりヒント付きコンセプトセグメンテーションを実現し、100 個の検出オブジェクトを 30 ミリ秒で処理します

GPT-5 が全面的にリード。OpenAI は「推論 + 研究」の二重のアプローチを使用して大規模モデルの機能をテストする FrontierScience をリリース。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

AI推論の解明：OpenAIのスパースモデルが初めてニューラルネットワークを透明化；消費カロリー予測：フィットネスモデルに正確なエネルギーデータを注入

積極的な監視を主張するダリオ・アモデイ氏は、OpenAIを去った後、AIの安全性を同社の使命に組み入れた。

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェント エージェント エクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

Command Palette

Google I/O に参加しますか? OpenAIがいつかライブブロードキャストを先取り、ChatGPTに通話機能が搭載される可能性

複数ラウンドの対立、激しい戦闘が続いている

OpenAIはまた人気を断ち切りたいのか？

Google I/O が主導的な役割を果たすためには Gemini に依存する必要があるでしょうか?

最後に書きます

関連 ニュース

ChatGPTは数億人のユーザーを誇りますが、有料コンバージョン率は10%未満です。AIを持続可能な収益につなげるにはどうすればいいのでしょうか？

200億ドルの賭け！xAIはマスク氏の巨額の資金をOpenAIに賭けるが、将来の商業的実現可能性は依然として最大の疑問符となっている。

オンラインチュートリアル | SAM 3 は、2 倍のパフォーマンス向上によりヒント付きコンセプトセグメンテーションを実現し、100 個の検出オブジェクトを 30 ミリ秒で処理します

GPT-5 が全面的にリード。OpenAI は「推論 + 研究」の二重のアプローチを使用して大規模モデルの機能をテストする FrontierScience をリリース。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

AI推論の解明：OpenAIのスパースモデルが初めてニューラルネットワークを透明化；消費カロリー予測：フィットネスモデルに正確なエネルギーデータを注入

積極的な監視を主張するダリオ・アモデイ氏は、OpenAIを去った後、AIの安全性を同社の使命に組み入れた。

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェント エージェント エクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

関連 ニュース

ChatGPTは数億人のユーザーを誇りますが、有料コンバージョン率は10%未満です。AIを持続可能な収益につなげるにはどうすればいいのでしょうか？

200億ドルの賭け！xAIはマスク氏の巨額の資金をOpenAIに賭けるが、将来の商業的実現可能性は依然として最大の疑問符となっている。

オンラインチュートリアル | SAM 3 は、2 倍のパフォーマンス向上によりヒント付きコンセプトセグメンテーションを実現し、100 個の検出オブジェクトを 30 ミリ秒で処理します

GPT-5 が全面的にリード。OpenAI は「推論 + 研究」の二重のアプローチを使用して大規模モデルの機能をテストする FrontierScience をリリース。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

AI推論の解明：OpenAIのスパースモデルが初めてニューラルネットワークを透明化；消費カロリー予測：フィットネスモデルに正確なエネルギーデータを注入

積極的な監視を主張するダリオ・アモデイ氏は、OpenAIを去った後、AIの安全性を同社の使命に組み入れた。

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェント エージェント エクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

関連 ニュース

ChatGPTは数億人のユーザーを誇りますが、有料コンバージョン率は10%未満です。AIを持続可能な収益につなげるにはどうすればいいのでしょうか？

200億ドルの賭け！xAIはマスク氏の巨額の資金をOpenAIに賭けるが、将来の商業的実現可能性は依然として最大の疑問符となっている。

オンラインチュートリアル | SAM 3 は、2 倍のパフォーマンス向上によりヒント付きコンセプトセグメンテーションを実現し、100 個の検出オブジェクトを 30 ミリ秒で処理します

GPT-5 が全面的にリード。OpenAI は「推論 + 研究」の二重のアプローチを使用して大規模モデルの機能をテストする FrontierScience をリリース。

サム・アルトマン氏の人間による身元確認インフラへの賭けは世界的な規制上のジレンマに直面しており、10億人のユーザー目標を達成したのは2%のみである。

AI推論の解明：OpenAIのスパースモデルが初めてニューラルネットワークを透明化；消費カロリー予測：フィットネスモデルに正確なエネルギーデータを注入

積極的な監視を主張するダリオ・アモデイ氏は、OpenAIを去った後、AIの安全性を同社の使命に組み入れた。

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェント エージェント エクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

LightOnOCR-2-1B: RLVR トレーニングに基づく高精度のエンドツーエンド OCR。Google ストリートビューの全国ストリートビュー画像: 世界クラスの地理マッピング技術に基づくオープンソースのパノラマ画像ライブラリ。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。

関連ニュース

Open-AutoGLM の低障壁トライアル: 画面理解と自動実行を組み合わせたインテリジェントエージェントエクスペリエンス、Spatial-SSRL-81k: 空間認識のための自己監督型改善パスの構築。