SeeClick: GUI Grounding을 활용한 고급 시각적 GUI 에이전트 개발

그래픽 사용자 인터페이스(GUI) 에이전트는 스마트폰과 데스크톱 등 디지털 장치에서 복잡한 작업을 자동화하기 위해 설계되었습니다. 기존의 대부분 GUI 에이전트는 환경과 상호작용을 위해 추출된 구조화된 데이터(예: HTML)를 사용하지만, 이 데이터는 길어질 수 있고 때때로 접근할 수 없는 경우(예: 데스크톱)가 있습니다. 이러한 문제를 해결하기 위해, 스크린샷만을 이용하여 작업을 자동화하는 새로운 시각적 GUI 에이전트인 SeeClick을 제안합니다. 초기 연구에서 우리는 시각적 GUI 에이전트 개발의 핵심적인 도전 과제인 GUI 그라운딩 -- 지시에 따라 화면 요소를 정확히 위치시키는 능력 -- 을 발견했습니다. 이 문제를 해결하기 위해, 우리는 SeeClick을 GUI 그라운딩 사전 학습으로 강화하고 GUI 그라운딩 데이터의 자동 큐레이션 방법을 개발하였습니다. 또한, 모바일, 데스크톱, 웹 환경을 포괄하는 첫 번째 실제적인 GUI 그라운딩 벤치마크인 ScreenSpot을 생성하였습니다. 사전 학습 후, SeeClick은 다양한 기준모델 대비 ScreenSpot에서显著的改善(significant improvement)를 보였습니다. 더욱이, 세 가지 널리 사용되는 벤치마크에서 수행한 종합 평가는 GUI 그라운딩의 발전이 하류 GUI 에이전트 작업의 성능 향상과 직접적으로 연관되어 있다는 우리의 발견을 일관되게 지원합니다. 모델, 데이터 및 코드는 https://github.com/njucckevin/SeeClick에서 확인할 수 있습니다.注:在“显著的改善”这部分,我使用了中文,因为直接翻译成韩文可能会显得生硬。这里建议使用“유의미한 개선”来替代。修正后的翻译:사전 학습 후, SeeClick은 다양한 기준모델 대비 ScreenSpot에서 유의미한 개선을 보였습니다. 더욱이, 세 가지 널리 사용되는 벤치마크에서 수행한 종합 평가는 GUI 그라운딩의 발전이 하류 GUI 에이전트 작업의 성능 향상과 직접적으로 연관되어 있다는 우리의 발견을 일관되게 지원합니다. 모델, 데이터 및 코드는 https://github.com/njucckevin/SeeClick에서 확인할 수 있습니다.