HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

BTL-UI: Blink-Think-Link-Reasoning-Modell für GUI-Agenten

Abstract

Im Bereich der künstlichen Intelligenz-gesteuerten Automatisierung der Interaktion zwischen Mensch und grafischer Benutzeroberfläche (GUI) sind trotz der raschen Fortschritte bei multimodalen großen Sprachmodellen und Verstärkungslernverfahren eine grundlegende Herausforderung weiterhin bestehen: Ihre Interaktionslogik weicht erheblich von natürlichen menschlichen Kommunikationsmustern mit grafischen Schnittstellen ab. Um diese Lücke zu schließen, schlagen wir „Blink-Think-Link“ (BTL) vor, einen vom Gehirn inspirierten Rahmen für die Mensch-GUI-Interaktion, der den kognitiven Prozess zwischen Nutzern und grafischen Oberflächen nachahmt. Das System zerlegt Interaktionen in drei biologisch plausiblen Phasen: (1) Blink – schnelle Erkennung und Aufmerksamkeit auf relevante Bildschirmbereiche, vergleichbar mit sakkadischen Augenbewegungen; (2) Think – hochrangige Schlussfolgerung und Entscheidungsfindung, die der kognitiven Planung entspricht; und (3) Link – Generierung ausführbarer Befehle zur präzisen Motorsteuerung, die Mechanismen der menschlichen Handlungsselektion nachahmt. Zusätzlich stellen wir zwei zentrale technische Innovationen für das BTL-Rahmenwerk vor: (1) Blink-Daten-Generierung – eine automatisierte Annotationsschleife, speziell für Blink-Daten optimiert, und (2) BTL-Reward – der erste regelbasierte Belohnungsmechanismus, der eine Verstärkungslernstrategie sowohl auf Prozess- als auch auf Ergebnisbasis ermöglicht. Aufbauend auf diesem Rahmenwerk entwickeln wir ein GUI-Agenten-Modell namens BTL-UI, das in umfassenden Benchmarks konsistent führende Leistung sowohl bei der statischen GUI-Verständnis- als auch bei dynamischen Interaktionsaufgaben zeigt. Diese Ergebnisse liefern eindeutige empirische Bestätigung für die Wirksamkeit des Rahmens bei der Entwicklung fortschrittlicher GUI-Agenten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp