グーグルが新AIモデル「Gemini 2.5 Computer Use」を発表、ウェブブラウザを人間のように操作可能に
Googleは、ウェブブラウザ内で人間向けのインターフェースを操作できる新しいAIモデル「Gemini 2.5 Computer Use」をプレビュー発表した。このモデルは、APIやプログラム経由ではなく、視覚的理解と推論能力を活用して、画面のUI(ユーザーインターフェース)を直接操作する能力を持つ。たとえば、フォームの入力・送信、ログイン後の操作、ドロップダウン選択、ドラッグアンドドロップなど、人間が行うようなタスクを自動で実行できる。開発者向けにGoogle AI StudioとVertex AIで提供され、Browserbaseでは「2048をプレイする」や「Hacker Newsでトレンド議論を閲覧する」など、実際の動作を確認できるデモも公開されている。 このモデルは、AIエージェントが人間のようにウェブサイトを「見る」ことで、APIが用意されていないアプリやサービスでもタスクを遂行できる点が特徴。これまでのAIは構造化されたデータやAPIを通じてしか操作できなかったが、Gemini 2.5 Computer Useは、画面のスクリーンショットとユーザーの指示をもとに、リアルタイムで行動を判断。現在は13の基本操作(ブラウザ起動、テキスト入力、スクロールなど)に対応しており、開発者はcomputer_useツールをAPI経由で組み込み、ループ構造で動作を制御できる。 Googleは、このモデルが複数のウェブ・モバイルベンチマークで既存の競合製品を上回ると強調。特に低遅延で高い精度を実現している。ただし、現在はPCのOSレベルの制御は非対応で、ブラウザ内に限定された操作にとどまっている。これは、セキュリティリスクを抑えるための設計上の配慮でもある。 安全面では、AIエージェントによる不正操作やプロンプトインジェクション、悪意あるウェブ環境への対応を重視。モデル自体に安全機能を組み込み、また開発者向けに「高リスク操作(例:CAPTCHA回避、システム破壊、医療機器制御)」の自動実行を制限する制御機能を提供。Googleは「責任ある開発」を重視し、開発者にテストと安全対策の徹底を呼びかけている。 この発表は、OpenAIがChatGPT Agentの進化を発表した直後であり、AIエージェントの「実行力」を競う動きが加速している。前年にはAnthropicがClaudeに同様の「コンピュータ使用」機能を導入済み。Googleは、Gemini 2.5 Computer Useを、AIが人間の代わりに日常的なデジタルタスクを自動化するための基盤と位置づけ、UIテストや個人用の自動化ツール開発に活用されることが期待されている。今後、AIが「見える世界」を理解し、「動く世界」を操作する能力が進化し、より実用的なAIエージェントの実現が近づいている。