초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 등장은 그래픽 사용자 인터페이스(GUI) 에이전트의 능력에 중요한 발전을 이끌어냈습니다. 그러나 기존의 GUI 에이전트 학습 및 추론 기법은 여전히 추론 설계, 비효율적인 보상, 시각적 노이즈 등의 딜레마에 직면해 있습니다. 이러한 문제를 해결하기 위해, 우리는 학습 및 추론 단계에서 GUI 에이전트를 향상시키는 종합적인 프레임워크인 UI-AGILE를 제시합니다. 학습 측면에서는 감독형 미세조정(Supervised Fine-Tuning, SFT) 과정에 대한 일련의 개선을 제안합니다: 1) 높은 정밀도의 지정(grounding)을 유도하기 위한 연속적 보상 함수(Continuous Reward function); 2) 계획과 속도, 지정 정확도 사이의 균형을 맞추기 위한 "단순한 사고(Simple Thinking)" 보상; 3) 희소 보상 문제를 완화하고 복잡한 작업에 대한 학습을 개선하기 위한 "자르기 기반 재샘플링(Cropping-based Resampling)" 전략. 추론 측면에서는 선택을 통한 분해된 지정(Decomposed Grounding with Selection)이라는 새로운 방법을 제시합니다. 이 방법은 이미지를 더 작은 처리 가능한 단위로 나누어 고해상도 디스플레이에서의 지정 정확도를 크게 향상시킵니다. 실험 결과 UI-AGILE는 ScreenSpot-Pro 및 ScreenSpot-v2 두 가지 벤치마크에서 최상의 성능을 달성했습니다. 예를 들어, 우리가 제안한 학습 및 추론 개선 방법을 모두 사용할 경우 ScreenSpot-Pro에서 최고의 베이스라인 대비 23%의 지정 정확도 향상 효과를 얻을 수 있었습니다.

소스 PDF