Command Palette

Search for a command to run...

14일 전

사람의 시연에 기반한 컴퓨터 사용 에이전트 구축

사람의 시연에 기반한 컴퓨터 사용 에이전트 구축

초록

신뢰할 수 있는 컴퓨터 사용 에이전트를 구축하기 위해서는 '기반(grounding)'이 필수적이다. 즉, 자연어 지시문을 화면 상의 정확한 요소와 연결하는 능력이 필요하다. 웹 및 모바일 상호작용에 대한 대규모 데이터셋은 존재하지만, 데스크톱 환경을 위한 고품질 자료는 여전히 제한적이다. 이 격차를 보완하기 위해, 전문가의 인간 시연을 기반으로 구축한 대규모 데스크톱 기반 데이터셋인 GroundCUA를 소개한다. 이 데이터셋은 12개 카테고리에 걸쳐 87개의 애플리케이션을 포괄하며, 총 56,000장의 스크린샷을 포함하고 있으며, 화면 내 모든 요소에 대해 정밀하게 주석을 달아 총 356만 개 이상의 인간 검증(annotation)을 완료했다. 이러한 시연 데이터로부터 다양한 지시문을 생성하여 실제 세계의 광범위한 작업을 포괄하는 데이터를 확보함으로써, 모델 훈련을 위한 고품질 데이터를 제공한다. GroundCUA를 기반으로, 지시문을 대상 UI 요소로 매핑하는 GroundNext 시리즈 모델을 개발하였다. 3B 및 7B 규모에서, 지도 학습(fine-tuning)을 통해 다섯 개의 벤치마크에서 최고 수준의 성능을 달성하였으며, 이는 이전 연구 대비 훈련 데이터의 10분의 1 미만으로도 가능함을 보여준다. 강화학습을 통한 사후 훈련(post-training)을 추가로 적용하면 성능이 더욱 향상되며, OSWorld 벤치마크에서 o3를 계획기(planner)로 사용한 에이전트 환경에서 평가했을 때, GroundNext는 훨씬 더 많은 데이터로 훈련된 모델과 비교해도 유사하거나 우수한 성능을 기록한다. 이러한 결과는 일반적인 컴퓨터 사용 에이전트의 발전을 위해 고품질의 전문가 기반 데이터셋이 핵심적인 역할을 함을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
사람의 시연에 기반한 컴퓨터 사용 에이전트 구축 | 연구 논문 | HyperAI초신경