Command Palette
Search for a command to run...
UI-AGILE: 효과적인 강화학습과 정확한 추론 시 지정을 통한 GUI 에이전트의 발전
UI-AGILE: 효과적인 강화학습과 정확한 추론 시 지정을 통한 GUI 에이전트의 발전
Shuquan Lian Yuhang Wu Jia Ma Zihan Song Bingqi Chen et al
초록
다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 등장은 그래픽 사용자 인터페이스(GUI) 에이전트의 능력에 중요한 발전을 이끌어냈습니다. 그러나 기존의 GUI 에이전트 학습 및 추론 기법은 여전히 추론 설계, 비효율적인 보상, 시각적 노이즈 등의 딜레마에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 학습 및 추론 단계에서 GUI 에이전트를 향상시키는 종합적인 프레임워크인 UI-AGILE를 제시합니다. 학습 측면에서는 감독형 미세조정(Supervised Fine-Tuning, SFT) 과정에 대한 일련의 개선을 제안합니다: 1) 높은 정밀도의 지정(grounding)을 유도하기 위한 연속적 보상 함수(Continuous Reward function); 2) 계획과 속도, 지정 정확도 사이의 균형을 맞추기 위한 "단순한 사고(Simple Thinking)" 보상; 3) 희소 보상 문제를 완화하고 복잡한 작업에 대한 학습을 개선하기 위한 "자르기 기반 재샘플링(Cropping-based Resampling)" 전략. 추론 측면에서는 선택을 통한 분해된 지정(Decomposed Grounding with Selection)이라는 새로운 방법을 제시합니다. 이 방법은 이미지를 더 작은 처리 가능한 단위로 나누어 고해상도 디스플레이에서의 지정 정확도를 크게 향상시킵니다. 실험 결과 UI-AGILE는 ScreenSpot-Pro 및 ScreenSpot-v2 두 가지 벤치마크에서 최상의 성능을 달성했습니다. 예를 들어, 우리가 제안한 학습 및 추론 개선 방법을 모두 사용할 경우 ScreenSpot-Pro에서 최고의 베이스라인 대비 23%의 지정 정확도 향상 효과를 얻을 수 있었습니다.