Command Palette
Search for a command to run...
온라인 튜토리얼 | 단일 SIM 카드로 대규모 수정: MiniCPM-V-4.6, 1.3B 오픈 소스 모델은 이미지 이해/비디오 이해/OCR/다중 턴 멀티모달 대화(Wallfacer 및 기타 오픈 소스 라이브러리 사용)를 지원합니다.

지난 몇 년간 인공지능 산업 전체는 '확장 법칙'이라는 담론에 거의 완전히 휩싸여 있었습니다. 매개변수가 크고 학습 데이터가 많을수록 모델이 '일반 지능'에 더 가까워진다는 것입니다. 수천억에서 수조에 이르는 매개변수를 가진 대규모 모델은 사람들의 추론 능력과 세계 지식에 대한 상상력을 끊임없이 새롭게 자극해 왔으며, '컴퓨팅 파워를 축적하고 규모를 확장하는 것'을 업계의 기본 개발 방향으로 만들었습니다.
하지만 인공지능이 산업 현장에 본격적으로 적용되기 시작하면서 점차 심각한 문제가 드러나고 있습니다.모든 시나리오에 클라우드 데이터 센터에 슈퍼모델을 배포해야 하는 것은 아닙니다.높은 추론 비용, 제어할 수 없는 네트워크 지연 시간, 그리고 점점 더 민감해지는 데이터 개인정보 보호 위험은 "대규모의 포괄적인" 모델 접근 방식에 병목 현상을 일으키고 있습니다. 성능, 적시성, 비용 사이의 "불가능한 삼각형"은 AI 민주화가 반드시 해결해야 할 과제가 되었습니다.
그리하여, 겉보기에는 직관에 반하는 경향이 나타나기 시작했습니다. 즉, 매개변수가 더 작은 모델들이 점점 더 많은 실제 시나리오, 특히 엣지 디바이스와 높은 동시성을 보이는 산업 환경에서 더 높은 효율성과 비용 효율성을 입증하고 있었습니다.경량 모델들이 OCR, 이미지 기반 질의응답, 의도 인식과 같은 기본적인 작업들을 처리하고 있습니다.이러한 시스템은 모바일 기기에서 오프라인으로 밀리초 단위로 실행될 수 있으며, RAG 시스템 내에서 라우팅 및 비용 절감도 처리하여 AI 애플리케이션의 진정한 구현을 위한 핵심 인프라가 됩니다.
최근 Facewall Intelligence, 칭화대학교, 그리고 OpenBMB는 차세대 엣지 멀티모달 모델인 MiniCPM-V 4.6을 공동으로 오픈소스 공개했습니다. 이 모델은 약 13억 개의 파라미터만으로 이미지 이해, 비디오 이해, OCR 및 다중 턴 멀티모달 대화 기능을 지원하며, 여러 평가에서 동급의 다른 모델들을 능가하는 성능을 보여주었습니다.

주목할 만한 점은 공식 모델 카드가 Transformer 기반의 AutoProcessor 및 AutoModelForImageTextToText 추론 솔루션을 제공하며, 이는 단일 GPU 환경에서 신속한 검증 및 애플리케이션 프로토타이핑에 적합하다는 것입니다.
HyperAI는 전 세계 개발자들이 이 경량 모델을 빠르게 경험할 수 있도록 "MiniCPM-V-4.6: 엣지 애플리케이션을 위한 효율적인 멀티모달 시각 언어 모델"을 출시했습니다. 환경 설정이 완료되어 있어 모델을 온라인으로 간편하게 배포할 수 있습니다.
온라인으로 실행:https://go.hyper.ai/GVDmw
관련 연구 논문 보기:
https://hyper.ai/papers/2605.08985

더 많은 온라인 튜토리얼:
더 자세한 정보를 원하시면 저희 공식 웹사이트를 방문해 주세요.
데모 실행
1. hyper.ai 홈페이지에 접속한 후 "튜토리얼" 페이지를 선택하거나 "더 많은 튜토리얼 보기"를 클릭하고 "MiniCPM-V-4.6: 기기를 위한 효율적인 멀티모달 시각 언어 모델"을 선택한 다음 "이 튜토리얼 실행"을 클릭합니다.


2. 페이지가 리디렉션된 후 오른쪽 상단의 "복제"를 클릭하여 튜토리얼을 자신의 컨테이너로 복제합니다.
참고: 페이지 오른쪽 상단에서 언어를 변경할 수 있습니다. 현재 중국어와 영어로만 제공됩니다. 이 튜토리얼에서는 영어로 된 단계를 안내합니다.

3. "NVIDIA RTX 5090" 및 "PyTorch" 이미지를 선택하고 "작업 실행 계속"을 클릭합니다.
HyperAI는 신규 사용자를 위한 가입 보너스를 제공합니다. 단 $1로 20시간 동안 RTX 5090 컴퓨팅 파워를 이용할 수 있으며(정가는 $7), 이 리소스는 무기한으로 사용 가능합니다.


4. 리소스 할당이 완료될 때까지 기다립니다. 상태가 "실행 중"으로 변경되면 "워크스페이스 열기"를 클릭하여 Jupyter 워크스페이스에 들어갑니다.

효과 표시
1. 페이지가 리디렉션된 후 왼쪽에 있는 README 파일을 클릭하고 상단의 실행을 클릭합니다.


2. 과정이 완료되면 오른쪽에 있는 API 주소를 클릭하여 데모 페이지로 이동하세요.









