13일 전

InfiGUI-G1: 적응형 탐색 정책 최적화를 통한 GUI 기반 기술의 발전

Yuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu
InfiGUI-G1: 적응형 탐색 정책 최적화를 통한 GUI 기반 기술의 발전
초록

다중모달 대규모 언어 모델(Multimodal Large Language Models, MLLMs)의 등장은 순수 시각 입력을 통해 그래픽 사용자 인터페이스(GUI)에서 자율적으로 작동하는 에이전트의 발전을 촉진했다. 이 과정에서 가장 근본적인 과제는 자연어 지시문을 견고하게 기반화하는 것이다. 이를 위해서는 각 UI 요소의 좌표를 정확히 위치시키는 정밀한 공간적 정렬과 더불어, 지시문을 기능적으로 적절한 UI 요소와 올바르게 매칭하는 정확한 의미적 정렬이 필요하다. 비록 검증 가능한 보상과 함께한 강화학습(RLVR)이 이러한 MLLMs의 공간적 정렬 향상에 효과적임이 입증되었지만, 본 연구에서는 비효율적인 탐색이 의미적 정렬을 방해하며, 모델이 어려운 의미적 관계를 학습하는 데 걸림돌이 된다는 점을 발견하였다. 이 탐색 문제를 해결하기 위해, 우리는 새로운 정책 최적화 프레임워크인 적응형 탐색 정책 최적화(Adaptive Exploration Policy Optimization, AEPO)를 제안한다. AEPO는 다중 응답 생성 전략을 활용하여 보다 광범위한 탐색을 유도하며, 이 탐색은 효율성 η = U/C의 기본 원칙에서 도출된 이론적으로 타당한 적응형 탐색 보상(AER) 함수에 의해 안내된다. AEPO로 훈련된 모델인 InfiGUI-G1-3B 및 InfiGUI-G1-7B는 여러 도전적인 GUI 기반화 벤치마크에서 새로운 최고 성능을 기록하였으며, 일반화 및 의미 이해를 평가하기 위해 설계된 벤치마크에서 기초적인 RLVR 베이스라인 대비 최대 9.0%의 상대적 성능 향상을 달성하였다. 관련 자원은 https://github.com/InfiXAI/InfiGUI-G1 에서 확인할 수 있다.

InfiGUI-G1: 적응형 탐색 정책 최적화를 통한 GUI 기반 기술의 발전 | 최신 연구 논문 | HyperAI초신경