Command Palette
Search for a command to run...
Moondream3-preview: 모듈식 시각 언어 이해 모델
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개
Moondream3는 Moondream 팀이 2025년 9월에 제안한 하이브리드 전문가 아키텍처 기반의 시각 언어 모델로, 90억 개의 파라미터(이 중 20억 개는 활성화 파라미터)를 자랑합니다. 이 모델은 최첨단 시각 추론 기능을 제공하고, 최대 32KB의 컨텍스트 길이를 지원하며, 고해상도 이미지를 효율적으로 처리할 수 있습니다. Moondream3는 혁신적인 MoE FFN 및 SigLIP 시각 인코더를 사용하여 이미지 기반 질의응답, 이미지 주석, 객체 탐지 등의 작업에 적합합니다. 관련 기술 문헌은 다음과 같습니다... Moondream 3 미리보기: 엄청난 속도로 진행되는 프론티어 수준의 추론 .
이 튜토리얼에서는 리소스로 단일 RTX 5090 그래픽 카드를 사용하며, 프로젝트 출력은 영어만 지원합니다.
2. 프로젝트 예시

3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 접속하시면 모델을 이용하실 수 있습니다.
"잘못된 게이트웨이"가 표시되면 코드가 백그라운드에서 실행 중임을 의미합니다. 약 2~3분 정도 기다린 후 페이지를 새로고침하세요.
사용 방법
1. 캡션

2. 시각적 질의응답

3. 객체 감지

4. 포인트 감지
