HyperAIHyperAI

Command Palette

Search for a command to run...

Moondream3-preview: 모듈식 시각 언어 이해 모델

날짜

7달 전

논문 URL

moondream.ai

GPU 컴퓨팅 에어드롭

단 20시간의 RTX 5090 컴퓨팅 리소스 $1 (가치 $7)
지금 사용하기

1. 튜토리얼 소개

특허

Moondream3는 Moondream 팀이 2025년 9월에 제안한 하이브리드 전문가 아키텍처 기반의 시각 언어 모델로, 90억 개의 파라미터(이 중 20억 개는 활성화 파라미터)를 자랑합니다. 이 모델은 최첨단 시각 추론 기능을 제공하고, 최대 32KB의 컨텍스트 길이를 지원하며, 고해상도 이미지를 효율적으로 처리할 수 있습니다. Moondream3는 혁신적인 MoE FFN 및 SigLIP 시각 인코더를 사용하여 이미지 기반 질의응답, 이미지 주석, 객체 탐지 등의 작업에 적합합니다. 관련 기술 문헌은 다음과 같습니다... Moondream 3 미리보기: 엄청난 속도로 진행되는 프론티어 수준의 추론 .

이 튜토리얼에서는 리소스로 단일 RTX 5090 그래픽 카드를 사용하며, 프로젝트 출력은 영어만 지원합니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 웹페이지에 접속하시면 모델을 이용하실 수 있습니다.

"잘못된 게이트웨이"가 표시되면 코드가 백그라운드에서 실행 중임을 의미합니다. 약 2~3분 정도 기다린 후 페이지를 새로고침하세요.

사용 방법

1. 캡션

2. 시각적 질의응답

3. 객체 감지

4. 포인트 감지

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 코코딩, 즉시 사용 가능한 환경, 최적의 GPU 가격으로 AI 개발을 가속화하세요.

AI 협업 코딩
바로 사용 가능한 GPU
최적의 가격

HyperAI Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp