HyperAI

모델 소개

Phi-3.5-vision-instruct는 Microsoft에서 출시한 Phi-3.5 시리즈의 멀티모달 모델로, 텍스트와 시각적 입력을 처리하는 애플리케이션을 위해 설계되었습니다. 이 모델은 128K의 컨텍스트 길이를 지원하고 엄격한 미세 조정 및 최적화 과정을 거쳤기 때문에 메모리나 컴퓨팅 리소스가 제한적이고 대기 시간이 짧고 높은 환경의 상업 및 연구 분야에서 널리 사용하기에 적합합니다. Phi-3.5-vision-instruct 모델은 이미지 이해, 광학 문자 인식(OCR), 차트 및 표 분석, 여러 이미지 또는 비디오 클립 요약 등 광범위한 기능을 갖추고 있어 다양한 AI 기반 애플리케이션에 적합합니다. 이미지 및 비디오 처리와 관련된 벤치마크에서 상당한 성능 향상을 보였습니다. 모델 아키텍처는 이미지 인코더, 커넥터, 프로젝터, Phi-3 Mini 언어 모델을 통합한 42억 개의 매개변수 시스템으로 구성됩니다. 훈련에는 NVIDIA A100-80G GPU 256개가 사용되었고, 완료하는 데 6일이 걸렸으며, 훈련 데이터에는 5,000억 개의 토큰(시각적 및 텍스트적)이 포함되었습니다.

Phi-3.5-vision-instruct 모델은 다중 모드 다중 이미지 이해(MMMU)에서 43.0점을 달성하여 복잡한 이미지 이해 작업을 처리하는 데 있어 향상된 역량을 보여주었습니다. 또한, 이 모델은 데이터 품질과 개인 정보 보호를 보장하기 위해 고품질 교육 데이터, 합성 데이터 및 엄격하게 검토된 공개 문서를 사용하여 학습됩니다.

이 튜토리얼은 4090 카드 한 장을 사용하여 시작할 수 있습니다.

실행 방법

1. 克隆并成功启动容器后，等待约 10s，将鼠标悬浮在「API 地址」处，拷贝链接到新标签页打开

2. 可以看到如下界面

3. 点击上传图片，选择模型，并输入问题，点击 Submit

4. 生成结果

교류 및 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

Phi-3.5-vision-instruct의 원클릭 배포

모델 소개

실행 방법

교류 및 토론