il y a 8 mois

Haoran Wei Yaofeng Sun Yukun Li

Résumé

Nous présentons DeepSeek-OCR comme une première exploration de la faisabilité de la compression de contextes longs par cartographie optique en 2D. DeepSeek-OCR se compose de deux composants : DeepEncoder, qui agit comme encodeur, et DeepSeek3B-MoE-A570M, utilisé comme décodeur. Plus précisément, DeepEncoder constitue le moteur central, conçu pour maintenir des activations faibles en présence d’entrées à haute résolution tout en atteignant des taux de compression élevés, garantissant ainsi un nombre optimal et gérable de tokens visuels. Les expérimentations montrent que, lorsque le nombre de tokens textuels reste inférieur à dix fois celui des tokens visuels (c’est-à-dire un taux de compression < 10×), le modèle atteint une précision de décodage (reconnaissance optique de caractères, OCR) de 97 %. Même à un taux de compression de 20×, la précision OCR reste d’environ 60 %. Ces résultats révèlent un fort potentiel pour des domaines de recherche tels que la compression de contextes longs historiques ou les mécanismes d’oubli de mémoire dans les grands modèles linguistiques (LLM). Au-delà de ces perspectives académiques, DeepSeek-OCR démontre également une grande valeur pratique. Sur le benchmark OmniDocBench, il dépasse GOT-OCR2.0 (256 tokens/page) en utilisant uniquement 100 tokens visuels, et surpasse MinerU2.0 (plus de 6000 tokens par page en moyenne) tout en ne nécessitant qu’un peu moins de 800 tokens visuels. En production, DeepSeek-OCR peut générer des données d’entraînement pour les LLM/VLM à raison de plus de 200 000 pages par jour (avec une seule carte A100-40G). Le code source et les poids du modèle sont accessibles publiquement à l’adresse suivante : http://github.com/deepseek-ai/DeepSeek-OCR.

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Haoran Wei Yaofeng Sun Yukun Li

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 8 mois

Haoran Wei Yaofeng Sun Yukun Li

Résumé

PDF source Voir le code

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

DeepSeek-OCR : Compression optique de contexte | Articles | HyperAI

Command Palette

DeepSeek-OCR : Compression optique de contexte

Haoran Wei Yaofeng Sun Yukun Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DeepSeek-OCR : Compression optique de contexte

Haoran Wei Yaofeng Sun Yukun Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

DeepSeek-OCR : Compression optique de contexte

Haoran Wei Yaofeng Sun Yukun Li

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters