Gemini 3 Flashに搭載の「Agentic Vision」で視覚理解が進化:コード実行で画像を積極的に分析
Googleは2026年1月27日、Gemini 3 Flashに「Agentic Vision」という新機能を導入した。これは視覚理解を単なる静的な画像認識から、能動的な調査プロセスへと進化させる画期的な技術だ。従来のAIモデルは一度の画像読み取りで情報を処理するが、細かい情報(例:マイクロチップのシリアル番号や遠くの看板)を見逃すと、推測に頼るしかなかった。Agentic Visionは「考える・行動する・観察する」という循環プロセスを導入し、画像に対する能動的な操作を可能にする。 モデルはユーザーの質問と初期画像を分析し、複数ステップの計画を立てる(Think)。次に、Pythonコードを生成・実行して画像を切り取り、回転、注釈付け、数値計算などを行える(Act)。実行結果として変換された画像がコンテキストに追加され、モデルは新たな視覚的証拠に基づいて最終的な回答を出す(Observe)。この仕組みにより、AIの判断が「視覚的根拠」を持つようになる。 実際の応用例として、建築計画の検証プラットフォーム「PlanCheckSolver.com」では、高解像度画像を繰り返し切り出して特定領域を分析することで、精度が5%向上。また、手の指の数字を正確にカウントする際、AIがPythonで各指にバウンディングボックスとラベルを描画し、誤認を防いでいる。さらに、複雑な表データから数値を抽出し、Matplotlibでプロットするなど、視覚的数学処理も可能に。従来のLLMが推測で誤答する場面でも、確定的なコード実行により正確な結果を出力できる。 Googleは今後、コード実行のトリガーをより自動化(暗黙的)にし、Web検索や逆画像検索などのツール連携も検討。また、Flash以外のモデルサイズにも展開する予定。 Agentic Visionは、Google AI StudioとVertex AIのAPIを通じて利用可能。Geminiアプリでも「Thinking」モード選択で体験できる。開発者はAI Studioのデモやプレイグラウンドで「コード実行」を有効化し、実装を試せる。 この技術は、AIが「見る」だけでなく「行動し、確認する」ことで、信頼性の高い視覚理解を実現する新たな一歩である。
