1. Introduction au tutoriel

DeepSeek-OCR, publié par DeepSeek Inc. en octobre 2025, constitue une étude préliminaire sur la faisabilité de la compression de longs contextes à partir d'images. DeepEncoder, le moteur principal, vise à maintenir de faibles niveaux d'activation tout en atteignant un taux de compression élevé pour des entrées haute résolution, garantissant ainsi que le nombre de jetons visuels reste dans une plage contrôlable et optimisée. Les expériences montrent que lorsque le nombre de jetons textuels ne dépasse pas 10 fois le nombre de jetons visuels (soit un taux de compression < 10×), le modèle atteint une précision de décodage (OCR) de 971 TP3T. Même avec un taux de compression de 20×, la précision de l'OCR reste d'environ 601 TP3T. Ceci ouvre des perspectives prometteuses pour des axes de recherche tels que la compression de longs contextes de documents historiques et les mécanismes de dégradation de la mémoire dans les grands modèles. Des articles de recherche associés sont disponibles. DeepSeek-OCR : Compression optique contextuelle .

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource par défaut, mais une seule carte graphique RTX 4090 peut être utilisée au minimum pour démarrer le programme.

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois sur la page web, vous pouvez télécharger des images et analyser du texte.

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser

3. Résultats de sortie

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

HyperAI

Exécuter ce Notebook Discuter sur Discord

Date

il y a 5 mois

Balises

OCR

URL du document

2510.18234

Licence

MIT

GitHub

deepseek-ai/DeepSeek-OCR

1. Introduction au tutoriel

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource par défaut, mais une seule carte graphique RTX 4090 peut être utilisée au minimum pour démarrer le programme.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois sur la page web, vous pouvez télécharger des images et analyser du texte.

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser

3. Résultats de sortie

4. Discussion

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{wei2025deepseek,
  title={DeepSeek-OCR: Contexts Optical Compression},
  author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
  journal={arXiv preprint arXiv:2510.18234},
  year={2025}
}

Ce notebook est fourni par des utilisateurs de la communauté et est destiné à des fins éducatives et informatives uniquement. Si un contenu enfreint des droits d'auteur, veuillez nous contacter à [email protected] pour un examen et un retrait rapides.

Command Palette

DeepSeek-OCR : La « compression Visuelle » Remplace La Reconnaissance De Caractères Traditionnelle

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DeepSeek-OCR : La « compression Visuelle » Remplace La Reconnaissance De Caractères Traditionnelle

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Cahiers associés

MarkItDown, l'outil De Conversion De Documents Open Source De Microsoft

Chandra : OCR De Documents De Haute Précision

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

SoulX-Podcast : Génération Vocale De Textes Longs De Qualité Podcast Pour Plusieurs dialectes.

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

LightOnOCR-1B-Interface : Un Moteur OCR Haute Vitesse Pour Les Documents Complexes

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

kyutai-tts-1.6 b-en_fr Génération Audio

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Déploiement De La Version April-1.5-15b-Thinker À l'aide De vLLM Et d'Open WebUI

Long-VITA : Une Démonstration De Compréhension Multimodale Avec Des Millions De Jetons

Agent De Diagnostic DiagGym

Flux Causal Visuel DeepSeek-OCR 2

LightOnOCR-2-1B Modèle OCR De Bout En Bout Léger Et Haute Performance

PaddleOCR-VL-1.5 : OCR Local Basé Sur vLLM

Système De Reconnaissance Optique De Caractères (OCR) Multimodal Léger GLM-OCR

Déploiement CPU De DeepSeek-R1-Distill-Qwen-1.5B-GGUF

Déploiement Du Processeur DeepSeek-Coder-V2-Lite-Instruct-GGUF

Modèle d'analyse De La Structure Des Documents FireRed-OCR

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DeepSeek-OCR : La « compression Visuelle » Remplace La Reconnaissance De Caractères Traditionnelle

1. Introduction au tutoriel

2. Exemples de projets

3. Étapes de l'opération

4. Discussion

Informations sur la citation

Cahiers associés

MarkItDown, l'outil De Conversion De Documents Open Source De Microsoft

Chandra : OCR De Documents De Haute Précision

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

SoulX-Podcast : Génération Vocale De Textes Longs De Qualité Podcast Pour Plusieurs dialectes.

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

LightOnOCR-1B-Interface : Un Moteur OCR Haute Vitesse Pour Les Documents Complexes

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

kyutai-tts-1.6 b-en_fr Génération Audio

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent

Déploiement De La Version April-1.5-15b-Thinker À l'aide De vLLM Et d'Open WebUI

Long-VITA : Une Démonstration De Compréhension Multimodale Avec Des Millions De Jetons

Agent De Diagnostic DiagGym

Flux Causal Visuel DeepSeek-OCR 2

LightOnOCR-2-1B Modèle OCR De Bout En Bout Léger Et Haute Performance

PaddleOCR-VL-1.5 : OCR Local Basé Sur vLLM

Système De Reconnaissance Optique De Caractères (OCR) Multimodal Léger GLM-OCR

Déploiement CPU De DeepSeek-R1-Distill-Qwen-1.5B-GGUF

Déploiement Du Processeur DeepSeek-Coder-V2-Lite-Instruct-GGUF

Modèle d'analyse De La Structure Des Documents FireRed-OCR

Créer de l'IA avec l'IA

HyperAI Newsletters

Cahiers associés

MarkItDown, l'outil De Conversion De Documents Open Source De Microsoft

Chandra : OCR De Documents De Haute Précision

Depth-Anything-3 : Restauration De L’espace Visuel Depuis N’importe Quelle Perspective

HunyuanOCR : Tencent Hunyuan OCR De Bout En Bout

SoulX-Podcast : Génération Vocale De Textes Longs De Qualité Podcast Pour Plusieurs dialectes.

LongCat-Image : Un Système De Génération D’images Bilingue Piloté Par Texte

LightOnOCR-1B-Interface : Un Moteur OCR Haute Vitesse Pour Les Documents Complexes

Kiss3DGen : Un Framework De Génération d'actifs 3D Basé Sur Un Modèle De Diffusion d'images

kyutai-tts-1.6 b-en_fr Génération Audio

JarvisArt - Aperçu Du Proxy De Retouche Photo Intelligent