Command Palette

Search for a command to run...

한 달 전

BTL-UI: GUI 에이전트를 위한 깜빡임-생각-연결 추론 모델

BTL-UI: GUI 에이전트를 위한 깜빡임-생각-연결 추론 모델

초록

인공지능 기반의 인간-GUI 상호작용 자동화 분야에서, 다모달 대규모 언어 모델 및 강화 학습 미세조정 기술의 급속한 발전은 놀라운 진전을 이뤄냈지만, 여전히 근본적인 과제가 존재한다. 즉, 기존 방법들의 상호작용 로직은 자연스러운 인간-GUI 소통 패턴과 크게 다름을 보인다는 점이다. 이러한 격차를 메우기 위해 우리는 인간의 인지 과정을 모방하는 뇌 기반 프레임워크인 '블링크-씽크-링크(Blink-Think-Link, BTL)'를 제안한다. 이 프레임워크는 사용자와 그래픽 인터페이스 간의 상호작용을 생물학적으로 타당한 세 단계로 분해한다. (1) 블링크(Blink): 화면의 관련 영역을 빠르게 탐지하고 주의를 집중하는 단계로, 사르카디적 눈동자 움직임과 유사하다. (2) 싱크(Think): 고차원적 사고와 의사결정을 수행하는 단계로, 인지적 계획 과정을 반영한다. (3) 링크(Link): 정밀한 운동 조작을 위한 실행 가능한 명령어를 생성하는 단계로, 인간의 행동 선택 메커니즘을 모방한다.또한 BTL 프레임워크를 위한 두 가지 핵심 기술적 혁신을 도입한다. (1) 블링크 데이터 생성(Blink Data Generation): 블링크 데이터에 특화된 자동 주석 생성 파이프라인으로, 데이터 준비의 효율성과 정확성을 극대화한다. (2) BTL 리워드(BTL Reward): 과정과 결과 양쪽을 기반으로 강화 학습을 유도하는 최초의 규칙 기반 보상 메커니즘이다.이 프레임워크를 기반으로, BTL-UI라는 GUI 에이전트 모델을 개발하였으며, 종합적인 벤치마크에서 정적 GUI 이해 및 동적 상호작용 작업 모두에서 일관된 최상위 성능을 입증하였다. 이러한 결과는 BTL 프레임워크가 고급 GUI 에이전트 개발에 있어 실질적인 효율성을 입증하는 결론적인 실험적 증거를 제공한다.

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
BTL-UI: GUI 에이전트를 위한 깜빡임-생각-연결 추론 모델 | 연구 논문 | HyperAI초신경