vLLM+Open WebUI 배포 Phi-4-미니 플래시 추론

1. 튜토리얼 소개

GitHub 스타

Phi-4-mini-flash-reasoning은 마이크로소프트 팀에서 출시한 경량 오픈소스 모델입니다. 합성 데이터를 기반으로 하며, 고품질의 고밀도 추론 데이터에 중점을 두고, 더욱 진보된 수학적 추론 기능을 구현하기 위해 세부적으로 조정되었습니다. 이 모델은 Phi-4 모델군에 속하며, 64K 토큰 컨텍스트 길이를 지원하고, 디코더-하이브리드-디코더 아키텍처를 채택하며, 어텐션 메커니즘과 상태 공간 모델(SSM)을 결합하고, 추론 효율성이 우수합니다. 관련 논문은 "장기 생성을 통한 효율적인 추론을 위한 디코더-하이브리드-디코더 아키텍처".

이 튜토리얼에서는 RTX 4090 카드 한 장을 사용합니다. 프로젝트 프롬프트는 중국어와 영어를 지원합니다.

2. 프로젝트 예시

3. 작업 단계

1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계

"모델"이 표시되지 않으면 모델이 초기화 중임을 의미합니다. 모델이 용량이 크므로 1~3분 정도 기다린 후 페이지를 새로고침해 주세요.

4. 토론

🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보

이 프로젝트에 대한 인용 정보는 다음과 같습니다.


@software{archscale2025,
  title={ArchScale: Simple and Scalable Pretraining for Neural Architecture Research},
  author={Liliang Ren and Zichong Li and Yelong Shen},
  year={2025},
  url={https://github.com/microsoft/ArchScale}
}

@article{ren2025decoder,
title={Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation},
author={Liliang Ren and Congcong Chen and Haoran Xu and Young Jin Kim and Adam Atkinson and Zheng Zhan and Jiankai Sun and Baolin Peng and Liyuan Liu and Shuohang Wang and Hao Cheng and Jianfeng Gao and Weizhu Chen and Yelong Shen},
journal={arXiv preprint arXiv:2507.06607},
year={2025}
}