1. Einführung in das Tutorial

DeepSeek-OCR, veröffentlicht von DeepSeek Inc. im Oktober 2025, ist eine Vorstudie zur Machbarkeit der Komprimierung langer Bildkontexte. DeepEncoder, die Kern-Engine, zielt darauf ab, niedrige Aktivierungsniveaus bei gleichzeitig hoher Komprimierungsrate auch bei hochauflösenden Eingaben zu gewährleisten und die Anzahl der visuellen Token in einem kontrollierbaren und optimierten Bereich zu halten. Experimente zeigen, dass das Modell eine Dekodierungsgenauigkeit (OCR) von 971 TP3T erreicht, wenn die Anzahl der Text-Token das Zehnfache der Anzahl der visuellen Token nicht übersteigt (d. h. Komprimierungsrate < 10×). Selbst bei einer Komprimierungsrate von 20× liegt die OCR-Genauigkeit noch bei etwa 601 TP3T. Dies verdeutlicht das große Potenzial für Forschungsrichtungen wie die Komprimierung langer Kontexte historischer Dokumente und die Mechanismen des Gedächtnisverlusts in großen Modellen. Zugehörige Forschungsarbeiten sind verfügbar. DeepSeek-OCR: Kontextbezogene optische Komprimierung .

Dieses Tutorial verwendet standardmäßig eine einzelne RTX 5090 Grafikkarte, aber zum Starten des Programms kann auch eine einzelne RTX 4090 Grafikkarte verwendet werden.

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Nach dem Aufrufen der Webseite können Sie Bilder hochladen und Texte analysieren.

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung

3. Ausgaberesultate

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

HyperAI

Dieses Notebook ausführen Auf Discord diskutieren

Datum

vor 5 Monaten

1. Einführung in das Tutorial

Dieses Tutorial verwendet standardmäßig eine einzelne RTX 5090 Grafikkarte, aber zum Starten des Programms kann auch eine einzelne RTX 4090 Grafikkarte verwendet werden.

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Nach dem Aufrufen der Webseite können Sie Bilder hochladen und Texte analysieren.

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung

3. Ausgaberesultate

4. Diskussion

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{wei2025deepseek,
  title={DeepSeek-OCR: Contexts Optical Compression},
  author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
  journal={arXiv preprint arXiv:2510.18234},
  year={2025}
}

Dieses Notebook wurde von Community-Nutzern beigesteuert und dient ausschließlich Bildungs- und Informationszwecken. Bei urheberrechtlichen Bedenken kontaktieren Sie uns bitte unter [email protected] zur umgehenden Prüfung und Entfernung.

Command Palette

DeepSeek-OCR: „Visuelle Komprimierung“ Ersetzt Die Traditionelle Zeichenerkennung

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

4. Diskussion

Zitationsinformationen

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepSeek-OCR: „Visuelle Komprimierung“ Ersetzt Die Traditionelle Zeichenerkennung

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

4. Diskussion

Zitationsinformationen

Verwandte Notebooks

MarkItDown, Microsofts Open-Source-Dokumentkonvertierungstool

Chandra: Hochpräzise Dokumenten-OCR

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Image: Ein Zweisprachiges Textgesteuertes Bildgenerierungssystem

LightOnOCR-1B-Interface: Eine Hochgeschwindigkeits-OCR-Engine Für Komplexe Dokumente

Kiss3DGen: Ein Framework Zur Generierung Von 3D-Assets Basierend Auf Einem Bilddiffusionsmodell

kyutai-tts-1.6 b-en_fr Audio Generation

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

Bereitstellung Von April-1.5-15b-Thinker Mit vLLM + Open WebUI

Long-VITA: Eine Multimodale Verständnisdemo Mit Millionen Von Token

DiagGym Diagnostik-Agent

DeepSeek-OCR 2 Visueller Kausalfluss

LightOnOCR-2-1B Leichtes, Leistungsstarkes End-to-End-OCR-Modell

PaddleOCR-VL-1.5: Lokale OCR Basierend Auf vLLM

GLM-OCR Leichtgewichtiges Multimodales OCR-Erkennungssystem

CPU-Bereitstellung Von DeepSeek-R1-Distill-Qwen-1.5B-GGUF

CPU-Bereitstellung DeepSeek-Coder-V2-Lite-Instruct-GGUF

FireRed-OCR-Dokumentstruktur-Parsing-Modell

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

DeepSeek-OCR: „Visuelle Komprimierung“ Ersetzt Die Traditionelle Zeichenerkennung

1. Einführung in das Tutorial

2. Projektbeispiele

3. Bedienungsschritte

4. Diskussion

Zitationsinformationen

Verwandte Notebooks

MarkItDown, Microsofts Open-Source-Dokumentkonvertierungstool

Chandra: Hochpräzise Dokumenten-OCR

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Image: Ein Zweisprachiges Textgesteuertes Bildgenerierungssystem

LightOnOCR-1B-Interface: Eine Hochgeschwindigkeits-OCR-Engine Für Komplexe Dokumente

Kiss3DGen: Ein Framework Zur Generierung Von 3D-Assets Basierend Auf Einem Bilddiffusionsmodell

kyutai-tts-1.6 b-en_fr Audio Generation

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy

Bereitstellung Von April-1.5-15b-Thinker Mit vLLM + Open WebUI

Long-VITA: Eine Multimodale Verständnisdemo Mit Millionen Von Token

DiagGym Diagnostik-Agent

DeepSeek-OCR 2 Visueller Kausalfluss

LightOnOCR-2-1B Leichtes, Leistungsstarkes End-to-End-OCR-Modell

PaddleOCR-VL-1.5: Lokale OCR Basierend Auf vLLM

GLM-OCR Leichtgewichtiges Multimodales OCR-Erkennungssystem

CPU-Bereitstellung Von DeepSeek-R1-Distill-Qwen-1.5B-GGUF

CPU-Bereitstellung DeepSeek-Coder-V2-Lite-Instruct-GGUF

FireRed-OCR-Dokumentstruktur-Parsing-Modell

KI mit KI entwickeln

HyperAI Newsletters

Verwandte Notebooks

MarkItDown, Microsofts Open-Source-Dokumentkonvertierungstool

Chandra: Hochpräzise Dokumenten-OCR

Depth-Anything-3: Wiederherstellung Des Visuellen Raums Aus Jeder Perspektive

HunyuanOCR: End-to-End-OCR Von Tencent Hunyuan

SoulX-Podcast: Generierung Von Langtexten in Podcast-Qualität Für Verschiedene Dialekte.

LongCat-Image: Ein Zweisprachiges Textgesteuertes Bildgenerierungssystem

LightOnOCR-1B-Interface: Eine Hochgeschwindigkeits-OCR-Engine Für Komplexe Dokumente

Kiss3DGen: Ein Framework Zur Generierung Von 3D-Assets Basierend Auf Einem Bilddiffusionsmodell

kyutai-tts-1.6 b-en_fr Audio Generation

JarvisArt-Vorschau Intelligenter Fotoretusche-Proxy