Command Palette
Search for a command to run...
Moondream3-preview: 모듈식 시각 언어 이해 모델
1. 튜토리얼 소개
Moondream3는 Moondream 팀이 2025년 9월 제안한 하이브리드 전문가 아키텍처를 기반으로 하는 시각 언어 모델입니다. 90억 개의 매개변수(그중 20억 개는 활성화 매개변수)를 가지고 있습니다. 이 모델은 최첨단 시각 추론 기능을 제공하고, 최대 32K의 컨텍스트 길이를 지원하며, 고해상도 이미지를 효율적으로 처리할 수 있습니다. Moondream3는 혁신적인 MoE FFN 및 SigLIP 시각 인코더를 사용하며, 이미지 질의응답, 이미지 주석, 객체 감지 등의 작업에 적합합니다. 관련 기술 자료는 "Moondream 3 미리보기: 엄청난 속도로 진행되는 프론티어 수준의 추론".
이 튜토리얼에서는 리소스로 단일 RTX 5090 그래픽 카드를 사용하며, 프로젝트 출력은 영어만 지원합니다.
2. 프로젝트 예시

3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 접속하시면 모델을 이용하실 수 있습니다.
"잘못된 게이트웨이"가 표시되면 코드가 백그라운드에서 실행 중임을 의미합니다. 약 2~3분 정도 기다린 후 페이지를 새로고침하세요.
사용 방법
1. 캡션

2. 시각적 질의응답

3. 객체 감지

4. 포인트 감지
