Command Palette

Search for a command to run...

1 个月前

BTL-UI:用于GUI Agent的Blink-Think-Link推理模型

BTL-UI:用于GUI Agent的Blink-Think-Link推理模型

摘要

在人工智能驱动的人机图形用户界面(GUI)交互自动化领域,尽管多模态大语言模型与强化学习微调技术取得了迅猛进展,但一个根本性挑战依然存在:现有方法的交互逻辑与自然的人机GUI沟通模式存在显著偏差。为弥合这一差距,我们提出“凝视—思考—联动”(Blink-Think-Link, BTL)框架,这是一种受大脑认知机制启发的人机GUI交互范式,旨在模拟用户与图形界面之间的认知过程。该系统将交互行为分解为三个具有生物学合理性的阶段:(1)凝视(Blink)——快速检测并聚焦于屏幕中相关区域,类比于眼球快速扫视(saccadic eye movements);(2)思考(Think)——进行高层级的推理与决策,模拟人类的认知规划过程;(3)联动(Link)——生成可执行的操作指令,实现精准的动作控制,模仿人类的动作选择机制。此外,我们为BTL框架引入两项关键技术革新:(1)凝视数据生成(Blink Data Generation)——一种专为凝视阶段数据优化的自动化标注流水线;(2)BTL奖励机制(BTL Reward)——首个基于规则的奖励机制,能够同时驱动以过程和结果为导向的强化学习。基于该框架,我们构建了一个名为BTL-UI的GUI智能体模型,在涵盖静态GUI理解与动态交互任务的综合性基准测试中,均展现出持续领先的状态—最先进性能。这些实验结果为BTL框架在构建先进GUI智能体方面的有效性提供了确凿的实证支持。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供