HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 16 jours

DeepSeek-OCR : Compression optique de contexte

Haoran Wei Yaofeng Sun Yukun Li

DeepSeek-OCR : Compression optique de contexte

Résumé

Nous présentons DeepSeek-OCR comme une première exploration de la faisabilité de la compression de contextes longs par cartographie optique en 2D. DeepSeek-OCR se compose de deux composants : DeepEncoder, qui agit comme encodeur, et DeepSeek3B-MoE-A570M, utilisé comme décodeur. Plus précisément, DeepEncoder constitue le moteur central, conçu pour maintenir des activations faibles en présence d’entrées à haute résolution tout en atteignant des taux de compression élevés, garantissant ainsi un nombre optimal et gérable de tokens visuels. Les expérimentations montrent que, lorsque le nombre de tokens textuels reste inférieur à dix fois celui des tokens visuels (c’est-à-dire un taux de compression < 10×), le modèle atteint une précision de décodage (reconnaissance optique de caractères, OCR) de 97 %. Même à un taux de compression de 20×, la précision OCR reste d’environ 60 %. Ces résultats révèlent un fort potentiel pour des domaines de recherche tels que la compression de contextes longs historiques ou les mécanismes d’oubli de mémoire dans les grands modèles linguistiques (LLM). Au-delà de ces perspectives académiques, DeepSeek-OCR démontre également une grande valeur pratique. Sur le benchmark OmniDocBench, il dépasse GOT-OCR2.0 (256 tokens/page) en utilisant uniquement 100 tokens visuels, et surpasse MinerU2.0 (plus de 6000 tokens par page en moyenne) tout en ne nécessitant qu’un peu moins de 800 tokens visuels. En production, DeepSeek-OCR peut générer des données d’entraînement pour les LLM/VLM à raison de plus de 200 000 pages par jour (avec une seule carte A100-40G). Le code source et les poids du modèle sont accessibles publiquement à l’adresse suivante : http://github.com/deepseek-ai/DeepSeek-OCR.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp