Command Palette
Search for a command to run...
vLLM+Open WebUI 배포 Phi-4-미니 플래시 추론
GPU 컴퓨팅 에어드롭
1. 튜토리얼 소개

Phi-4-mini-flash-reasoning은 Microsoft 팀에서 공개한 경량 오픈 소스 모델입니다. 합성 데이터를 기반으로 구축되었으며, 고품질의 집중적인 추론 데이터에 초점을 맞추고 더욱 정교한 수학적 추론 기능을 구현하도록 최적화되었습니다. 이 모델은 Phi-4 모델 제품군에 속하며, 64K 토큰 컨텍스트 길이를 지원하고, 디코더-하이브리드-디코더 아키텍처를 채택하고, 어텐션 메커니즘과 상태 공간 모델(SSM)을 결합하여 뛰어난 추론 효율성을 보여줍니다. 관련 연구 논문은 별도로 제공됩니다. 장기 생성을 통한 효율적인 추론을 위한 디코더-하이브리드-디코더 아키텍처 .
이 튜토리얼에서는 RTX 4090 카드 한 장을 사용합니다. 프로젝트 프롬프트는 중국어와 영어를 지원합니다.
2. 프로젝트 예시

3. 작업 단계
1. 컨테이너 시작 후 API 주소를 클릭하여 웹 인터페이스로 진입합니다.

2. 사용 단계
"모델"이 표시되지 않으면 모델이 초기화 중임을 의미합니다. 모델이 용량이 크므로 1~3분 정도 기다린 후 페이지를 새로고침해 주세요.

4. 토론
🖌️ 고품질 프로젝트를 발견하시면, 백그라운드에 메시지를 남겨 추천해주세요! 또한, 튜토리얼 교환 그룹도 만들었습니다. 친구들의 QR코드 스캔과 [SD 튜토리얼] 댓글을 통해 그룹에 가입하여 다양한 기술 이슈에 대해 논의하고 신청 결과를 공유해 주시기 바랍니다.↓

인용 정보
이 프로젝트에 대한 인용 정보는 다음과 같습니다.
@software{archscale2025, title={ArchScale: Simple and Scalable Pretraining for Neural Architecture Research}, author={Liliang Ren and Zichong Li and Yelong Shen}, year={2025}, url={https://github.com/microsoft/ArchScale} }@article{ren2025decoder,
title={Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation},
author={Liliang Ren and Congcong Chen and Haoran Xu and Young Jin Kim and Adam Atkinson and Zheng Zhan and Jiankai Sun and Baolin Peng and Liyuan Liu and Shuohang Wang and Hao Cheng and Jianfeng Gao and Weizhu Chen and Yelong Shen},
journal={arXiv preprint arXiv:2507.06607},
year={2025}
}