2달 전

GUICourse: 일반적인 시각 언어 모델에서 다목적 GUI 에이전트까지

Chen, Wentong ; Cui, Junbo ; Hu, Jinyi ; Qin, Yujia ; Fang, Junjie ; Zhao, Yue ; Wang, Chongyi ; Liu, Jun ; Chen, Guirong ; Huo, Yupeng ; Yao, Yuan ; Lin, Yankai ; Liu, Zhiyuan ; Sun, Maosong
GUICourse: 일반적인 시각 언어 모델에서 다목적 GUI 에이전트까지
초록

그래픽 사용자 인터페이스(GUI)를 활용한 인간-컴퓨터 상호작용은 다양한 디지털 도구에 접근하는 데 필수적입니다. 최근 시각 언어 모델(Vision Language Models, VLMs)의 발전은 다목적 에이전트를 개발하여 인간이 GUI 탐색 작업을 완료하는 데 도움을 줄 수 있는 강력한 잠재력을 부각시키고 있습니다. 그러나 현재의 VLMs는 기본적인 능력(OCR 및 지면화)과 GUI 지식(GUI 요소의 기능과 제어 방법) 측면에서 어려움을 겪고 있어, 실제적인 GUI 에이전트로 발전하는 것을 방해하고 있습니다. 이러한 문제를 해결하기 위해, 우리는 일반 VLMs로부터 시각 기반 GUI 에이전트를 훈련시키기 위한 데이터셋 모음인 GUICourse를 제공합니다. 첫째, VLMs의 OCR 및 지면화 능력을 강화하기 위해 GUIEnv 데이터셋을 소개합니다. 둘째, GUI 구성요소와 상호작용에 대한 지식을 풍부하게 하기 위해 GUIAct 및 GUIChat 데이터셋을 소개합니다. 실험 결과, 우리의 GUI 에이전트는 베이스라인 VLMs보다 일반적인 GUI 작업에서 더 우수한 성능을 보임을 입증하였습니다. 심지어 31억 파라미터 규모의 작은 크기의 GUI 에이전트도 단일 단계와 다중 단계의 GUI 작업에서 잘 작동하였습니다. 마지막으로, 이 에이전트의 훈련 단계에서 나타나는 다양한 차이점을 아블레이션 연구(ablation study)를 통해 분석하였습니다. 우리의 소스 코드와 데이터셋은 https://github.com/yiye3/GUICourse에서 공개되었습니다.

GUICourse: 일반적인 시각 언어 모델에서 다목적 GUI 에이전트까지 | 최신 연구 논문 | HyperAI초신경