HyperAIHyperAI

Command Palette

Search for a command to run...

Microsoft、オンデバイス対応小型エージェント「Fara-7B」を公開

マイクロソフトは 2025 年 11 月、70 億パラメータの軽量多言語モデル「Fara-7B」を公開しました。このモデルは、デバイス上で完結して動作する専用エージェントであり、主にウェブブラウジングやコンピューター操作を目的としています。Fara-7B は、Qwen2.5-VL-7B を基に微調整されたシングルマルチモーダルモデルで、アクセシビリティツリーや DOM パーサーを介さず、直接スクリーンショットを解析してマウスやキーボードの座標を出力します。つまり、画面上のピクセルがインターフェースであり、API の役割を果たします。 同社は、このモデルが従来の大規模クラウドベースのシステムとは異なり、ローカルのラップトップやデスクトップ環境でも動作することを強調しています。学習データは、マイクロソフトの「Magentic-One」マルチエージェント・フレームワークによって生成された 14 万 5 千件の合成軌跡から抽出され、より大きなエージェントが実行したタスクの記録を圧縮したものです。システムは、ユーザーの許可が必要な「クリティカル・ポイント」では自動的に動作を停止し、人間の確認を待つように設計されています。 既存のコンピューター使用エージェントと比較すると、Fara-7B はアーキテクチャを大幅に簡素化しています。アンソロピックや OpenAI の関連システムが複数のモデルやクラウドストリーミングに依存するのに対し、Fara-7B は単一のモデルでプロセスを完結させます。これにより、コンピューター使用の能力が最先端のクラウド限定から、実用的な日常ツールへと広がりました。また、Azure Foundry でのホスト提供や、GGUF 形式による Ollama などのローカル環境への対応も可能です。 しかし、小規模化によるセキュリティリスクへの懸念も指摘されています。視覚認識と動作決定が一体化しているため、悪意のあるポップアップやコンテンツ注入に対する脆弱性は残存します。マイクロソフトの公式ドキュメントでは、実験的リリースとして位置づけられ、サンドボックス環境での使用や機密データ・高リスク領域での利用制限が明記されています。ベンチマークの数値は魅力的ですが、実社会での堅牢性は依然として課題が残る状況です。 Fara-7B の登場は、小規模モデルがブラウザを駆使できることを証明し、合成データによる知識蒸留が将来的なトレーニングの標準的アプローチとなることを示唆しています。これにより、複雑で高コストだったエージェンシー技術が、より広く利用可能な技術へと進化する転換点となっています。

関連リンク