Command Palette
Search for a command to run...
DeepSeek-OCR: Kontextuelle optische Kompression
Haoran Wei Yaofeng Sun Yukun Li

Abstract
Wir präsentieren DeepSeek-OCR als erste Untersuchung zur Machbarkeit der Kompression langer Kontexte mittels optischer 2D-Kartierung. DeepSeek-OCR besteht aus zwei Komponenten: dem DeepEncoder als Encoder und DeepSeek3B-MoE-A570M als Decoder. Der DeepEncoder fungiert dabei als zentrales Verarbeitungsmodul, das unter hochauflösenden Eingabedaten niedrige Aktivierungen aufweist und gleichzeitig hohe Kompressionsraten erzielt, um eine optimale und handhabbare Anzahl an Visueltokens sicherzustellen. Experimente zeigen, dass das Modell bei einer Anzahl an Texttokens, die maximal das Zehnfache der Anzahl an Visueltokens beträgt (d. h. eine Kompressionsrate < 10×), eine Genauigkeit bei der Dekodierung (OCR) von 97 % erreicht. Selbst bei einer Kompressionsrate von 20× bleibt die OCR-Genauigkeit bei etwa 60 %. Dies weist auf erhebliches Potenzial für Forschungsfelder wie die Kompression historischer, langer Kontexte sowie Mechanismen des Gedächtnisverlusts in großen Sprachmodellen (LLMs) hin. Darüber hinaus zeigt DeepSeek-OCR erheblichen praktischen Nutzen: Auf dem OmniDocBench-Testset übertrifft es GOT-OCR2.0 (256 Tokens pro Seite), indem es lediglich 100 Visueltokens nutzt, und erreicht zudem eine bessere Leistung als MinerU2.0 (durchschnittlich über 6000 Tokens pro Seite), obwohl es weniger als 800 Visueltokens einsetzt. In der Produktion kann DeepSeek-OCR täglich Trainingsdaten für große Sprach- und multimodale Modelle (LLMs/VLMs) im Umfang von über 200.000 Seiten generieren (bei Nutzung einer einzigen A100-40G-GPU). Quellcode und Modellgewichte sind öffentlich unter http://github.com/deepseek-ai/DeepSeek-OCR verfügbar.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.