Ein-Klick-Bereitstellung Von Phi-3.5-vision-instruct
Modelleinführung
Phi-3.5-vision-instruct ist ein multimodales Modell der von Microsoft veröffentlichten Phi-3.5-Reihe, das für Anwendungen entwickelt wurde, die Text und visuelle Eingaben verarbeiten. Das Modell unterstützt eine Kontextlänge von 128 KB und wurde einem strengen Feinabstimmungs- und Optimierungsprozess unterzogen, sodass es für den breiten Einsatz in kommerziellen und Forschungsbereichen in Umgebungen mit begrenztem Speicher oder begrenzten Rechenressourcen und hohen Anforderungen an die geringe Latenz geeignet ist. Das Phi-3.5-Vision-Instruct-Modell verfügt über umfangreiche Funktionen wie Bildverständnis, optische Zeichenerkennung (OCR), Diagramm- und Tabellenanalyse sowie Zusammenfassung mehrerer Bilder oder Videoclips, wodurch es sich gut für eine Vielzahl KI-gesteuerter Anwendungen eignet. Demonstrierte signifikante Leistungssteigerungen in Benchmarks im Zusammenhang mit der Bild- und Videoverarbeitung. Die Modellarchitektur besteht aus einem 4,2 Milliarden Parameter umfassenden System, das den Bildcodierer, den Konnektor, den Projektor und das Phi-3 Mini-Sprachmodell integriert. Für das Training wurden 256 NVIDIA A100-80G GPUs verwendet, es dauerte 6 Tage und die Trainingsdaten umfassten 500 Milliarden Token (visuell und textuell).
Das Phi-3.5-Vision-Instruct-Modell erreicht einen Wert von 43,0 im Multimodal Multi-Image Understanding (MMMU) und demonstriert damit seine verbesserten Fähigkeiten bei der Bewältigung komplexer Bildverständnisaufgaben. Darüber hinaus wird das Modell mit hochwertigen Bildungsdaten, synthetischen Daten und streng geprüften öffentlichen Dokumenten trainiert, um Datenqualität und Datenschutz zu gewährleisten.
Dieses Tutorial kann mit einer einzelnen 4090-Karte gestartet werden.
Wie man läuft
1. 克隆并成功启动容器后,等待约 10s,将鼠标悬浮在「API 地址」处,拷贝链接到新标签页打开

2. 可以看到如下界面

3. 点击上传图片,选择模型,并输入问题,点击 Submit

4. 生成结果

Austausch und Diskussion
🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓