Modelleinführung

Phi-3.5-vision-instruct ist ein multimodales Modell der von Microsoft veröffentlichten Phi-3.5-Reihe, das für Anwendungen entwickelt wurde, die Text und visuelle Eingaben verarbeiten. Das Modell unterstützt eine Kontextlänge von 128 KB und wurde einem strengen Feinabstimmungs- und Optimierungsprozess unterzogen, sodass es für den breiten Einsatz in kommerziellen und Forschungsbereichen in Umgebungen mit begrenztem Speicher oder begrenzten Rechenressourcen und hohen Anforderungen an die geringe Latenz geeignet ist. Das Phi-3.5-Vision-Instruct-Modell verfügt über umfangreiche Funktionen wie Bildverständnis, optische Zeichenerkennung (OCR), Diagramm- und Tabellenanalyse sowie Zusammenfassung mehrerer Bilder oder Videoclips, wodurch es sich gut für eine Vielzahl KI-gesteuerter Anwendungen eignet. Demonstrierte signifikante Leistungssteigerungen in Benchmarks im Zusammenhang mit der Bild- und Videoverarbeitung. Die Modellarchitektur besteht aus einem 4,2 Milliarden Parameter umfassenden System, das den Bildcodierer, den Konnektor, den Projektor und das Phi-3 Mini-Sprachmodell integriert. Für das Training wurden 256 NVIDIA A100-80G GPUs verwendet, es dauerte 6 Tage und die Trainingsdaten umfassten 500 Milliarden Token (visuell und textuell).

Das Phi-3.5-Vision-Instruct-Modell erreicht einen Wert von 43,0 im Multimodal Multi-Image Understanding (MMMU) und demonstriert damit seine verbesserten Fähigkeiten bei der Bewältigung komplexer Bildverständnisaufgaben. Darüber hinaus wird das Modell mit hochwertigen Bildungsdaten, synthetischen Daten und streng geprüften öffentlichen Dokumenten trainiert, um Datenqualität und Datenschutz zu gewährleisten.

Dieses Tutorial kann mit einer einzelnen 4090-Karte gestartet werden.

Austausch und Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

HyperAI

Dieses Notebook ausführen

Datum

vor einem Jahr

Größe

781.92 MB

Modelleinführung

Dieses Tutorial kann mit einer einzelnen 4090-Karte gestartet werden.

Wie man läuft

1. 克隆并成功启动容器后，等待约 10s，将鼠标悬浮在「API 地址」处，拷贝链接到新标签页打开

2. 可以看到如下界面

3. 点击上传图片，选择模型，并输入问题，点击 Submit

4. 生成结果

Austausch und Diskussion

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Verwandt Notebooks

Bereitstellung Des Medizinischen Argumentationsmodells MedGemma-27b-text-it Mit Einem Klick

vor 3 Monaten

SmolLM3-3B-Modell Mit Einem Klick Bereitstellen

vor 3 Monaten

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

vor 2 Monaten

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

vor 2 Monaten

PaddleOCR-VL: Multimodale Dokumentenanalyse

vor 3 Monaten

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Modelleinführung

Dieses Tutorial kann mit einer einzelnen 4090-Karte gestartet werden.

Austausch und Diskussion

Command Palette

Ein-Klick-Bereitstellung Von Phi-3.5-vision-instruct

Modelleinführung

Wie man läuft

Austausch und Diskussion

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein-Klick-Bereitstellung Von Phi-3.5-vision-instruct

Modelleinführung

Wie man läuft

Austausch und Diskussion

Verwandt Notebooks

Ein-Klick-Bereitstellung Von Ministry-3-14B-Instruct

Chandra: Hochpräzise Dokumenten-OCR

llama.cpp+openwebui Stellt Qwen3-VL-8B-Instruct-GGUF Bereit

Ein-Klick-Bereitstellung Von DeepSeek-R1-70B

Bereitstellung Des Medizinischen Argumentationsmodells MedGemma-27b-text-it Mit Einem Klick

SmolLM3-3B-Modell Mit Einem Klick Bereitstellen

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

PaddleOCR-VL: Multimodale Dokumentenanalyse

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Ein-Klick-Bereitstellung Von Phi-3.5-vision-instruct

Modelleinführung

Wie man läuft

Austausch und Diskussion

Verwandt Notebooks

Ein-Klick-Bereitstellung Von Ministry-3-14B-Instruct

Chandra: Hochpräzise Dokumenten-OCR

llama.cpp+openwebui Stellt Qwen3-VL-8B-Instruct-GGUF Bereit

Ein-Klick-Bereitstellung Von DeepSeek-R1-70B

Bereitstellung Des Medizinischen Argumentationsmodells MedGemma-27b-text-it Mit Einem Klick

SmolLM3-3B-Modell Mit Einem Klick Bereitstellen

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

PaddleOCR-VL: Multimodale Dokumentenanalyse

KI mit KI entwickeln

HyperAI Newsletters

Verwandt Notebooks

Ein-Klick-Bereitstellung Von Ministry-3-14B-Instruct

Chandra: Hochpräzise Dokumenten-OCR

llama.cpp+openwebui Stellt Qwen3-VL-8B-Instruct-GGUF Bereit

Ein-Klick-Bereitstellung Von DeepSeek-R1-70B

Bereitstellung Des Medizinischen Argumentationsmodells MedGemma-27b-text-it Mit Einem Klick

SmolLM3-3B-Modell Mit Einem Klick Bereitstellen

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

PaddleOCR-VL: Multimodale Dokumentenanalyse

Verwandt Notebooks

Ein-Klick-Bereitstellung Von Ministry-3-14B-Instruct

Chandra: Hochpräzise Dokumenten-OCR

llama.cpp+openwebui Stellt Qwen3-VL-8B-Instruct-GGUF Bereit

Ein-Klick-Bereitstellung Von DeepSeek-R1-70B

Bereitstellung Des Medizinischen Argumentationsmodells MedGemma-27b-text-it Mit Einem Klick

SmolLM3-3B-Modell Mit Einem Klick Bereitstellen

Qwen-Image-Lightning Mit Einem Klick Bereitstellen

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

PaddleOCR-VL: Multimodale Dokumentenanalyse