Gemini 3.5 FlashがPC操作機能を搭載
GoogleはAIモデルGemini 3.5 Flashに対し、従来は単体モデルとして提供されていたコンピューター操作機能computer useをネイティブに統合したことを発表した。この統合により、開発者はGemini APIおよびGemini Enterprise Agent Platformを通じて、ブラウザ、モバイル、デスクトップ環境において画面上の情報を視覚的に認識し、推論・操作を行う自律型エージェントの構築を可能とする。特に長時間にわたるワークフローの自動化や、継続的ソフトウェアテスト、専門業務におけるナレッジワークなど、エンタープライズ用途での性能向上が期待される。 リアル環境でのエージェント運用に伴うプロンプトインジェクションリスクの軽減を目的とし、同機能には敵対的トレーニングを施している。また、企業向けに任意で導入可能なセーフガードシステムを2種類リリースした。一つは機微かつ元に戻せない操作に対する明示的な承認の必須化、もう一つは間接的なプロンプトインジェクション検出時のタスク自動中断だ。Googleはセキュリティ対策として、これらの機能をサンドボックス化、人間の介入検証、厳格なアクセス制御と組み合わせるディフェンス・イン・ディプスのアプローチを推奨している。 既に複数の企業顧客が実務で本機能の活用を開始しており、アプリ機能の分類リスト抽出や社内向けドキュメントのアクセシビリティ監査などの実証が進められている。開発者はBrowserbaseが提供するデモ環境で動作検証ができ、Gemini APIおよびEnterprise Agent Platformの公式ドキュメントを参照して本格的なシステム構築に移行できる。
