Command Palette

Search for a command to run...

6시간 전

생성형 사용자 인터페이스를 위한 평가자로서의 컴퓨터 사용 Agents

Kevin Qinghong Lin Siyuan Hu Linjie Li Zhengyuan Yang Lijuan Wang Philip Torr Mike Zheng Shou

생성형 사용자 인터페이스를 위한 평가자로서의 컴퓨터 사용 Agents

초록

다음은 요청하신 텍스트에 대한 전문적인 한국어 번역입니다.컴퓨터 사용 에이전트(Computer-Use Agents, CUA)는 그래픽 사용자 인터페이스(GUI)를 통해 디지털 환경을 자율적으로 조작하는 능력이 점차 강화되고 있습니다. 그러나 대부분의 GUI는 여전히 인간을 주 대상으로 설계되어 심미성과 사용성을 우선시하므로, 에이전트가 효율적인 작업 수행에 불필요한 인간 중심적 행동 양식을 따르도록 강요하고 있습니다. 동시에, 코딩 특화 언어 모델(Coder)의 급속한 발전은 자동 GUI 설계를 혁신적으로 변화시키고 있습니다. 이는 근본적인 질문을 제기합니다: "자동 GUI 설계를 위해 CUA가 심사위원(Judge)으로서 Coder를 보조할 수 있는가?"이를 규명하기 위해, 우리는 다양한 도메인에 걸친 52개 애플리케이션을 포괄하는 자동 GUI 개발 벤치마크인 AUI-Gym을 소개합니다. 우리는 언어 모델을 활용하여 실제 시나리오를 시뮬레이션하는 1,560개의 작업을 합성했습니다. 또한 작업의 신뢰성을 보장하기 위해, 각 작업이 해당 환경 내에서 실행 가능한지를 프로그래밍 방식으로 확인하는 검증기(Verifier)를 개발했습니다.이를 바탕으로 우리는 Coder-CUA 협업(Coder-CUA in Collaboration) 프레임워크를 제안합니다. 이 구조에서 Coder는 설계자(Designer)로서 웹사이트를 생성 및 수정하며, CUA는 심사위원(Judge)으로서 기능을 평가하고 설계를 개선하는 역할을 수행합니다. 성공 여부는 시각적 외관이 아닌, 작업 해결 가능성과 CUA의 탐색 성공률로 측정됩니다. CUA의 피드백을 실용적인 지침으로 변환하기 위해, 우리는 다단계 탐색 기록을 간결한 시각적 요약 정보로 압축하여 반복적인 재설계를 위한 해석 가능한 가이드를 제공하는 CUA 대시보드를 설계했습니다.에이전트에게 설계자이자 심사위원의 역할을 부여함으로써, 우리의 프레임워크는 인터페이스 디자인의 방향을 에이전트 네이티브(agent-native) 효율성과 신뢰성 중심으로 전환합니다. 본 연구는 에이전트가 디지털 환경의 수동적인 사용자에서 능동적인 참여자로 나아가는 데 기여합니다. 관련 코드와 데이터셋은 https://github.com/showlab/AUI 에서 확인할 수 있습니다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp