Command Palette

Search for a command to run...

12일 전

VideoAgentTrek: 레이블이 없는 영상에서의 컴퓨터 사용 사전 훈련

VideoAgentTrek: 레이블이 없는 영상에서의 컴퓨터 사용 사전 훈련

초록

컴퓨터 사용 에이전트를 훈련시키기 위해서는 막대한 양의 GUI 상호작용 데이터가 필요하지만, 대규모로 액션 경로를 수동으로 레이블링하는 것은 비용 측면에서 비현실적이다. 본 연구에서는 웹 규모의 공개된 화면 기록 영상에서 자동으로 훈련 데이터를 채굴할 수 있는 확장 가능한 파이프라인인 VideoAgentTrek을 제안한다. 이 방법은 수동 레이블링이 필요 없도록 하여, 기존의 비용 문제를 극복한다. 본 연구의 핵심 과제는 원시 영상이 암시적 시연(implicit demonstrations)을 포함하지만 명시적 액션 레이블이 부족하다는 점에 있다. 이를 해결하기 위해, 두 가지 구성 요소로 이루어진 역역학 모듈(Inverse Dynamics Module, IDM)인 Video2Action을 개발하였다. 첫째, GUI 액션을 정확한 시적 경계와 맥락 내에서 탐지하고 정위치화하는 영상 기반 모델(video grounding model)이며, 둘째, 클릭 좌표나 입력된 텍스트와 같은 구조화된 파라미터를 높은 정밀도로 추출하는 액션-콘텐츠 인식기(action-content recognizer)이다. 이 파이프라인을 39,000개의 유튜브 튜토리얼 영상에 적용한 결과, 자동으로 152만 개의 상호작용 단계를 생성하였다. 이 데이터는 지속적 사전 훈련(continued pretraining)을 거친 후, 지도 학습을 통한 미세 조정(supervised fine-tuning)을 통해 활용된다. OSWorld-Verified 벤치마크에서, 제안한 방법은 단순 지도 학습(SFT-only) 기반 모델의 9.3%에서 15.8%로 작업 성공률을 향상시켜 상대적 개선률 70%를 달성하였다. 또한 AgentNetBench에서 단계 정확도는 64.1%에서 69.3%로 향상되었다. 본 연구 결과는, 수동 레이블링에 비해 비용이 높은 전통적 방식에 대한 대안으로, 패시브한 인터넷 영상이 컴퓨터 사용 에이전트를 위한 고품질의 지도 신호로 변환될 수 있음을 입증한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
VideoAgentTrek: 레이블이 없는 영상에서의 컴퓨터 사용 사전 훈련 | 연구 논문 | HyperAI초신경