AIが自らツールを生成するPythonフレームワーク「PyVision」が登場
AIが自らの思考プロセスに合わせてツールを生成するPython中心のフレームワーク「PyVision」が発表された。この研究は、視覚的推論タスクにおけるAIの限界を克服することを目的としている。視覚的推論とは、画像を分析し、関連する特徴を抽出し、抽象的な推論や説明を生成する能力を問うもので、医療診断や視覚数学、記号パズル、画像に基づく質問応答など、幅広い応用がある。 従来のモデルは固定されたツールセットや単一の処理ステップに依存しており、柔軟性に欠ける。視覚タスクが複雑になると、対応が難しくなり、既存のツールでは対応できない問題に直面する。そのため、AIがタスクに応じて新しいツールを自ら構築できる仕組みが求められていた。 PyVisionは、上海AIラボ、ライス大学、中国科学技術大学、シンガポール国立大学、SIIの研究チームが共同で開発したフレームワーク。大規模マルチモーダル言語モデル(MLLM)が、タスクに合わせてPythonコードを生成し、実行できるようにする。従来のフレームワークとは異なり、PyVisionは静的なモジュールに縛られず、複数ステップにわたる対話の中でツールを動的に構築・修正できる仕組みを持つ。 ユーザーの質問と画像入力を受けたMLLMは、Pythonコードを生成し、そのコードを隔離された環境で実行する。結果はテキスト、画像、数値などで返却され、モデルはそのフィードバックをもとに計画を修正し、コードを再生成して繰り返し処理を行う。この仕組みにより、タスク間で状態を保持し、連続的な推論が可能になる。また、セキュリティ機能としてプロセスの隔離や構造化された入出力が組み込まれており、複雑なタスクでも安定した動作が期待できる。 ベンチマークテストでは、PyVisionの効果が確認されている。GPT-4.1は視覚検索ベンチマークV*で68.1%から75.9%に、Claude-4.0-SonnetはVLMsAreBlind-miniで48.1%から79.2%に向上。他のタスクでもそれぞれ2.4%〜8.3%の改善が見られた。モデルの特性に応じて効果が異なるが、基本モデルの能力を補強する形で機能する。 この研究は視覚的推論分野における大きな進歩を示しており、AIが自らの思考に応じてツールを作成できる仕組みを実現した。PyVisionは、静的なモデルを能動的なシステムに変えることで、複雑な現実世界の視覚的課題に対応する知能あるAIの構築に向けた重要な一歩となる。