Command Palette
Search for a command to run...
BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

Abstract
Im Bereich der künstlichen Intelligenz-gesteuerten Automatisierung der Interaktion zwischen Mensch und grafischer Benutzeroberfläche (GUI) sind trotz der raschen Fortschritte bei multimodalen großen Sprachmodellen und Verstärkungslernverfahren eine grundlegende Herausforderung weiterhin bestehen: Ihre Interaktionslogik weicht erheblich von natürlichen menschlichen Kommunikationsmustern mit grafischen Schnittstellen ab. Um diese Lücke zu schließen, schlagen wir „Blink-Think-Link“ (BTL) vor, einen vom Gehirn inspirierten Rahmen für die Mensch-GUI-Interaktion, der den kognitiven Prozess zwischen Nutzern und grafischen Oberflächen nachahmt. Das System zerlegt Interaktionen in drei biologisch plausiblen Phasen: (1) Blink – schnelle Erkennung und Aufmerksamkeit auf relevante Bildschirmbereiche, vergleichbar mit sakkadischen Augenbewegungen; (2) Think – hochrangige Schlussfolgerung und Entscheidungsfindung, die der kognitiven Planung entspricht; und (3) Link – Generierung ausführbarer Befehle zur präzisen Motorsteuerung, die Mechanismen der menschlichen Handlungsselektion nachahmt. Zusätzlich stellen wir zwei zentrale technische Innovationen für das BTL-Rahmenwerk vor: (1) Blink-Daten-Generierung – eine automatisierte Annotationsschleife, speziell für Blink-Daten optimiert, und (2) BTL-Reward – der erste regelbasierte Belohnungsmechanismus, der eine Verstärkungslernstrategie sowohl auf Prozess- als auch auf Ergebnisbasis ermöglicht. Aufbauend auf diesem Rahmenwerk entwickeln wir ein GUI-Agenten-Modell namens BTL-UI, das in umfassenden Benchmarks konsistent führende Leistung sowohl bei der statischen GUI-Verständnis- als auch bei dynamischen Interaktionsaufgaben zeigt. Diese Ergebnisse liefern eindeutige empirische Bestätigung für die Wirksamkeit des Rahmens bei der Entwicklung fortschrittlicher GUI-Agenten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.