Microsoft setzt auf Fara-7B: Kleines On-Device-Agent-Modell
Microsoft hat mit Fara-7B einen kleinen, lokalen Computer-Use-Agenten open-sourced. Dieses 7-Milliarden-Parameter-Modell (SLM) ist speziell für die autonome Computersteuerung entwickelt worden und läuft vollständig auf einem lokalen Gerät, ohne auf Cloud-Ressourcen angewiesen zu sein. Im Gegensatz zu früheren Systemen, die oft große Cloud-Modelle nutzen, markiert Fara-7B einen Wendepunkt, bei dem komplexe Aufgaben direkt auf einem Laptop erledigt werden können. Das Modell basiert auf einer multimodalen Architektur, die auf Qwen2.5-VL-7B fine-getuned wurde. Seine Funktionsweise unterscheidet sich grundlegend von herkömmlichen Modellen, die über DOM-Parser oder Barrierefreiheits-Bäume arbeiten. Fara-7B analysiert ausschließlich Screenshots und berechnet direkt Koordinaten für Mausklicks und Tastatureingaben. Der Bildschirm fungiert hierbei als einzige Schnittstelle, wobei die Pixel die eigentliche Programmiersprache darstellen. Der Prozess folgt einem kontinuierlichen Zyklus: Das System erfasst einen Bildschirm, der Agent berechnet die nächste Handlung, führt diese aus und analysiert das resultierende Bild erneut. Dieser Kreislauf wiederholt sich, bis die Aufgabe abgeschlossen ist oder kritische Punkte erreicht werden. Besonders hervorzuheben ist die integrierte Sicherheitslogik. Der Agent stoppt die Ausführung automatisch an sogenannten kritischen Punkten, wie etwa beim Abschluss eines Einkaufs, einer Buchung oder dem Versenden sensibler Daten. In diesen Momenten fordert das System die menschliche Bestätigung an, statt eine Transaktion eigenständig abzuschließen. Dieses Verhalten ist nicht nachträglich eingebaut, sondern Teil des Trainings. Die Trainingsdaten entstanden durch synthetische Trajektorien, die von Microsofts Magentic-One-Framework generiert wurden. Größere Agenten führten dabei zahlreiche Web-Tasks aus und dokumentierten ihre Vorgehensweise, woraus das kleinere Fara-7B-Modell distilliert wurde. Fara-7B unterscheidet sich in seiner Architektur von vergleichbaren Systemen wie Anthropics Computer Use oder OpenAIs CUA, die oft auf Cloud-Infrastrukturen oder komplexe Mehr-Agenten-Architekturen setzen. Mit Fara-7B kollabiert die Architektur auf ein einzelnes Modell, das lokal läuft und direkte Aktionen ausführt. Das Modell ist über verschiedene Schnittstellen verfügbar, darunter vLLM auf GPUs, GGUF-Builds für LM Studio und Ollama sowie eine gehostete Route auf Azure Foundry. Ein einfaches Kommandozeilen-Tool, genannt fara-cli, ermöglicht den direkten Einstieg für Entwickler. Trotz der beeindruckenden Effizienz birgt der Ansatz erhebliche Sicherheitsrisiken. Da das Modell Wahrnehmung, OCR und Aktionserstellung in einem einzigen Schritt verbindet, fehlen zusätzliche Sicherheitsbarrieren zwischen der visuellen Eingabe und der Ausführung. Dies macht es anfällig für spezifische Angriffe, etwa das Klicken auf manipulierte Pop-ups oder das Ausnutzen semantischer Manipulationen. Microsoft warnt in der Dokumentation ausdrücklich vor der Verwendung in sensiblen Umgebungen und empfiehlt die Nutzung nur in abgesicherten Sandboxes ohne Zugriff auf sensible Daten. Die Veröffentlichung von Fara-7B signalisiert, dass Computer-Use-Agenten nicht länger eine rein akademische oder cloud-basierte Spielwiese für große Modelle sind. Ein 7-Milliarden-Parameter-Modell, das auf lokaler Hardware läuft, macht diese Technologie für den praktischen Alltag zugänglich. Es zeigt zudem, dass die Distillation synthetischer Trainingsdaten zukünftig ein dominierender Ansatz bei der Entwicklung spezialisierter Agenten sein wird. Während Benchmarks bereits beeindruckende Leistungen zeigen, bleibt die Übertragung in robuste Produktionsumgebungen eine weitere Herausforderung. Dennoch ist Fara-7B der klare Beweis dafür, dass kleine Modelle in der Lage sind, Webbrowser vollständig zu steuern.
