HyperAIHyperAI

MiniCPM-V 4.5: Das Leistungsstärkste Edge-to-Edge-Multimodalmodell

1. Einführung in das Tutorial

Bauen

MiniCPM-V 4.5 ist ein äußerst effizientes, groß angelegtes End-Side-Modell, das im August 2025 vom Natural Language Processing Laboratory der Tsinghua University und Mianbi Intelligence als Open Source veröffentlicht wurde. MiniCPM-V 4.5 verfügt über 8 Milliarden Parameter. Das Modell bietet hervorragende Leistung in vielen Bereichen wie Bildern, Videos, OCR usw., insbesondere beim Verstehen von Videos mit hoher Bildwiederholrate. Es kann Videos mit hoher Bildwiederholrate verarbeiten und Inhalte präzise identifizieren. Das Modell unterstützt den hybriden Inferenzmodus, um Leistung und Reaktionsgeschwindigkeit optimal auszubalancieren. MiniCPM-V 4.5 ist end-side-implementierungsfreundlich, mit geringem Videospeicherverbrauch und hoher Inferenzgeschwindigkeit. Es eignet sich für den Einsatz in Autocomputern, Robotern und anderen Geräten und setzt neue Maßstäbe für die Entwicklung von end-side-KI. Die relevanten Ergebnisse der Studie lauten:MiniCPM-V: Ein MLLM auf GPT-4V-Ebene auf Ihrem Telefon".

Die in diesem Tutorial verwendeten Rechenressourcen sind eine einzelne RTX 4090-Karte.

2. Effektanzeige

Bildverständnis

Mehrbildvergleich

OCR-Textextraktion

Videoverständnis

3. Bedienungsschritte

1. Starten Sie den Container

2. Anwendungsschritte

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{yao2024minicpm,
  title={MiniCPM-V: A GPT-4V Level MLLM on Your Phone},
  author={Yao, Yuan and Yu, Tianyu and Zhang, Ao and Wang, Chongyi and Cui, Junbo and Zhu, Hongji and Cai, Tianchi and Li, Haoyu and Zhao, Weilin and He, Zhihui and others},
  journal={arXiv preprint arXiv:2408.01800},
  year={2024}
}
MiniCPM-V 4.5: Das Leistungsstärkste Edge-to-Edge-Multimodalmodell | Tutorials | HyperAI