HyperAIHyperAI

Command Palette

Search for a command to run...

ShowUI: GUI 자동화에 초점을 맞춘 비전-언어-액션 모델

날짜

일 년 전

논문 URL

2411.17465

라이선스

Apache 2.0

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

ShowUI는 싱가포르 국립대학교 Show Lab과 마이크로소프트가 2024년에 공동 개발한 시각-언어-행동 모델로, 그래픽 사용자 인터페이스(GUI) 지능형 비서로서 인간의 작업 효율성을 향상시키도록 설계되었습니다. 이 모델은 화면 인터페이스의 내용을 이해하고 클릭, 입력, 스크롤과 같은 상호작용 동작을 수행합니다. 웹 및 모바일 애플리케이션 환경을 모두 지원하며, 복잡한 사용자 인터페이스 작업을 자동으로 완료할 수 있습니다. ShowUI는 스크린샷과 사용자 명령어를 분석하여 인터페이스에서 수행할 상호작용 동작을 예측합니다. 관련 연구 논문은 별도로 제공됩니다. ShowUI: GUI 비주얼 에이전트를 위한 하나의 비전-언어-액션 모델 이는 CVPR 2025에 포함되었습니다.

이 튜토리얼에서는 기본 리소스로 단일 RTX 5090 그래픽 카드를 사용하지만, 최소한 단일 RTX 4090 그래픽 카드를 사용하여 프로그램을 시작할 수 있습니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

인용 정보

@misc{lin2024showui,
      title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, 
      author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
      year={2024},
      eprint={2411.17465},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.17465}, 
}

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp