HyperAI超神経

vLLM+Open WebUI 導入 MiniCPM4-8B

1. チュートリアルの概要

GitHubスター

MiniCPM 4.0は、OpenBMBが2025年6月6日に発表した効率的なエンドサイド大規模言語モデル(LLM)です。スパースアーキテクチャ、量子化圧縮、効率的な推論フレームワークなどの技術により、低い計算コストで高性能な推論を実現しており、特に長いテキスト処理、プライバシーに配慮したシナリオ、エッジコンピューティングデバイスの展開に適しています。MiniCPM4-8Bは、長いシーケンスを処理する際にQwen3-8Bよりも大幅に高速な処理速度を示しています。関連論文の結果は「MiniCPM4: エンドデバイス上の超高効率LLM”。

このチュートリアルでは、単一の RTX 4090 カードのリソースを使用します。

2. プロジェクト例

3. 操作手順

1. コンテナを起動した後、API アドレスをクリックして Web インターフェイスに入ります

2. Web ページに入ると、モデルと会話を開始できます。

「モデル」が表示されない場合は、モデルが初期化中です。モデルのサイズが大きいため、2~3分ほどお待ちいただき、ページを更新してください。

利用手順

4. 議論

🖌️ 高品質のプロジェクトを見つけたら、メッセージを残してバックグラウンドで推奨してください。さらに、チュートリアル交換グループも設立しました。お友達はコードをスキャンして [SD チュートリアル] に参加し、さまざまな技術的な問題について話し合ったり、アプリケーションの効果を共有したりできます。

引用情報

Githubユーザーに感謝 xxxjjjyyy1  このチュートリアルの展開。このプロジェクトの引用情報は次のとおりです。

@article{minicpm4,
  title={MiniCPM4: Ultra-Efficient LLMs on End Devices},
  author={MiniCPM Team},
  year={2025}
}

@inproceedings{huminicpm,
  title={MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies},
  author={Hu, Shengding and Tu, Yuge and Han, Xu and Cui, Ganqu and He, Chaoqun and Zhao, Weilin and Long, Xiang and Zheng, Zhi and Fang, Yewei and Huang, Yuxiang and others},
  booktitle={First Conference on Language Modeling},
  year={2024}
}