@misc{lin2024showui, title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou}, year={2024}, eprint={2411.17465}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.17465}, }

날짜

2년 전

태그

논문 URL

라이선스

Apache 2.0

GitHub

showlab/ShowUI1.9k

1. 튜토리얼 소개

ShowUI는 싱가포르 국립대학교 Show Lab과 마이크로소프트가 2024년에 공동 개발한 시각-언어-행동 모델로, 그래픽 사용자 인터페이스(GUI) 지능형 비서로서 인간의 작업 효율성을 향상시키도록 설계되었습니다. 이 모델은 화면 인터페이스의 내용을 이해하고 클릭, 입력, 스크롤과 같은 상호작용 동작을 수행합니다. 웹 및 모바일 애플리케이션 환경을 모두 지원하며, 복잡한 사용자 인터페이스 작업을 자동으로 완료할 수 있습니다. ShowUI는 스크린샷과 사용자 명령어를 분석하여 인터페이스에서 수행할 상호작용 동작을 예측합니다. 관련 연구 논문은 별도로 제공됩니다. ShowUI: GUI 비주얼 에이전트를 위한 하나의 비전-언어-액션 모델 이는 CVPR 2025에 포함되었습니다.

이 튜토리얼에서는 기본 리소스로 단일 RTX 5090 그래픽 카드를 사용하지만, 최소한 단일 RTX 4090 그래픽 카드를 사용하여 프로그램을 시작할 수 있습니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 모델이 크기 때문에 약 2~3분 정도 기다리신 후 페이지를 새로고침해 주시기 바랍니다.

인용 정보

@misc{lin2024showui,
      title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, 
      author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou},
      year={2024},
      eprint={2411.17465},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2411.17465}, 
}

이 노트북은 커뮤니티 사용자가 기여한 것으로 교육 및 정보 제공 목적으로만 사용됩니다. 저작권 침해와 관련된 콘텐츠가 있는 경우 [email protected]로 문의하시면 신속하게 검토 및 삭제 처리하겠습니다.

Notebook 개요

수준

입문

주제

에이전트와 자동화 생성형 AI 컴퓨터 비전

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩

바로 사용 가능한 GPU

최적의 가격

시작하기 가격 보기

HyperAI Newsletters

최신 정보 구독하기

한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다

이메일 서비스 제공: MailChimp

Command Palette

ShowUI: GUI 자동화에 초점을 맞춘 비전-언어-액션 모델

1. 튜토리얼 소개

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

ShowUI: GUI 자동화에 초점을 맞춘 비전-언어-액션 모델

1. 튜토리얼 소개

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters

Command Palette

ShowUI: GUI 자동화에 초점을 맞춘 비전-언어-액션 모델

1. 튜토리얼 소개

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

인용 정보

Notebook 개요

AI로 AI 구축

HyperAI Newsletters