HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek-OCR: „Visuelle Komprimierung“ Ersetzt Die Traditionelle Zeichenerkennung

1. Einführung in das Tutorial

Bauen

DeepSeek-OCR, veröffentlicht von DeepSeek Inc. im Oktober 2025, ist eine Vorstudie zur Machbarkeit der Komprimierung langer Bildkontexte. DeepEncoder, die Kern-Engine, zielt darauf ab, niedrige Aktivierungsniveaus bei gleichzeitig hoher Komprimierungsrate auch bei hochauflösenden Eingaben zu gewährleisten und die Anzahl der visuellen Token in einem kontrollierbaren und optimierten Bereich zu halten. Experimente zeigen, dass das Modell eine Dekodierungsgenauigkeit (OCR) von 971 TP3T erreicht, wenn die Anzahl der Text-Token das Zehnfache der Anzahl der visuellen Token nicht übersteigt (d. h. Komprimierungsrate < 10×). Selbst bei einer Komprimierungsrate von 20× liegt die OCR-Genauigkeit noch bei etwa 601 TP3T. Dies verdeutlicht das große Potenzial für Forschungsrichtungen wie die Komprimierung langer Kontexte historischer Dokumente und die Mechanismen des Gedächtnisverfalls in großen Modellen. Die zugehörige Publikation trägt den Titel „…“.DeepSeek-OCR: Kontextbezogene optische Komprimierung".

Dieses Tutorial verwendet standardmäßig eine einzelne RTX 5090 Grafikkarte, aber zum Starten des Programms kann auch eine einzelne RTX 4090 Grafikkarte verwendet werden.

2. Projektbeispiele

3. Bedienungsschritte

1. Klicken Sie nach dem Starten des Containers auf die API-Adresse, um die Weboberfläche aufzurufen

2. Nach dem Aufrufen der Webseite können Sie Bilder hochladen und Texte analysieren.

Wenn „Bad Gateway“ angezeigt wird, bedeutet dies, dass das Modell initialisiert wird. Da das Modell groß ist, warten Sie bitte etwa 2–3 Minuten und aktualisieren Sie die Seite.

Anwendung

 3. Ausgaberesultate 

4. Diskussion

🖌️ Wenn Sie ein hochwertiges Projekt sehen, hinterlassen Sie bitte im Hintergrund eine Nachricht, um es weiterzuempfehlen! Darüber hinaus haben wir auch eine Tutorien-Austauschgruppe ins Leben gerufen. Willkommen, Freunde, scannen Sie den QR-Code und kommentieren Sie [SD-Tutorial], um der Gruppe beizutreten, verschiedene technische Probleme zu besprechen und Anwendungsergebnisse auszutauschen ↓

Zitationsinformationen

Die Zitationsinformationen für dieses Projekt lauten wie folgt:

@article{wei2025deepseek,
  title={DeepSeek-OCR: Contexts Optical Compression},
  author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
  journal={arXiv preprint arXiv:2510.18234},
  year={2025}
}

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DeepSeek-OCR: „Visuelle Komprimierung“ Ersetzt Die Traditionelle Zeichenerkennung | Tutorials | HyperAI