ShowUI: GUI 자동화에 초점을 맞춘 비전-언어-액션 모델


튜토리얼 소개
ShowUI는 싱가포르 국립대학교의 Show Lab과 Microsoft가 2024년에 공동으로 개발한 비전-언어-행동 모델입니다. 그래픽 사용자 인터페이스(GUI) 지능형 비서를 위해 설계되었으며, 인간의 업무 효율성을 개선하는 것을 목표로 합니다. 관련 논문 결과는 "ShowUI: GUI 비주얼 에이전트를 위한 하나의 비전-언어-액션 모델". 이 모델은 화면 인터페이스의 내용을 이해하고 클릭, 입력, 스크롤과 같은 상호작용 동작을 수행하여 웹 및 모바일 애플리케이션 시나리오를 지원합니다. 복잡한 사용자 인터페이스 작업을 자동으로 완료할 수 있습니다. ShowUI는 스크린샷과 사용자 명령을 분석하여 인터페이스의 상호작용 동작을 예측할 수 있습니다.
该教程是 ShowUI 的一个演示 demo,算力资源采用 RTX 4090 。只需提供图片和任务指令,无论是在手机电脑上的截图还是其他类型的图片,ShowUI 都可以指出操作位置。
효과 표시

실행 방법 (컨테이너 시작 후 초기화까지 약 15초 소요, 이후 다음 작업 수행)
1. 컨테이너를 복제하고 시작한 후 API 주소 위에 마우스를 올려놓고 나타나는 화살표를 클릭합니다. "잘못된 게이트웨이"가 표시되면 모델이 초기화 중임을 의미합니다. 약 30초 정도 기다렸다가 다시 시도해 보세요.

성공적으로 열린 인터페이스의 예는 아래와 같습니다.

2. 데모 페이지에 접속한 후, 이미지를 업로드하고 입력란에 명령어를 입력한 후 "제출"을 클릭하세요. 생성된 이미지의 붉은 점은 작업 영역을 표시하고, 붉은 점의 위치 좌표는 아래에 표시됩니다.

토론 및 교류
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔 및 [튜토리얼 교환]에 댓글을 남겨 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓
