HyperAIHyperAI

Command Palette

Search for a command to run...

DeepSeek-OCR : La « compression Visuelle » Remplace La Reconnaissance De Caractères Traditionnelle

Date

il y a 3 mois

Size

339.63 MB

Tags

License

MIT

Paper URL

2510.18234

1. Introduction au tutoriel

Construire

DeepSeek-OCR, publié par DeepSeek Inc. en octobre 2025, constitue une étude préliminaire sur la faisabilité de la compression de longs contextes à partir d'images. DeepEncoder, le moteur principal, vise à maintenir de faibles niveaux d'activation tout en atteignant un taux de compression élevé pour des entrées haute résolution, garantissant ainsi que le nombre de jetons visuels reste dans une plage contrôlable et optimisée. Les expériences montrent que lorsque le nombre de jetons textuels ne dépasse pas 10 fois le nombre de jetons visuels (soit un taux de compression < 10×), le modèle atteint une précision de décodage (OCR) de 971 TP3T. Même avec un taux de compression de 20×, la précision de l'OCR reste d'environ 601 TP3T. Ceci ouvre des perspectives prometteuses pour des axes de recherche tels que la compression de longs contextes de documents historiques et les mécanismes de dégradation de la mémoire dans les grands modèles. Des articles de recherche associés sont disponibles. DeepSeek-OCR : Compression optique contextuelle .

Ce tutoriel utilise une seule carte graphique RTX 5090 comme ressource par défaut, mais une seule carte graphique RTX 4090 peut être utilisée au minimum pour démarrer le programme.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

2. Une fois sur la page web, vous pouvez télécharger des images et analyser du texte.

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 2 à 3 minutes et actualiser la page.

Comment utiliser

 3. Résultats de sortie 

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@article{wei2025deepseek,
  title={DeepSeek-OCR: Contexts Optical Compression},
  author={Wei, Haoran and Sun, Yaofeng and Li, Yukun},
  journal={arXiv preprint arXiv:2510.18234},
  year={2025}
}

Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp