DeepSeek开源新模型:用图片压缩长文档,让大模型处理效率飙升
DeepSeek vient de dévoiler une nouvelle avancée open source : un modèle baptisé DeepSeek-OCR, conçu pour compresser des documents longs en images afin de réduire considérablement les coûts computationnels liés au traitement par les grands modèles linguistiques. Cette innovation s’inscrit dans une démarche originale visant à contourner un des principaux freins à l’usage des LLM (Large Language Models) sur des textes volumineux : la croissance exponentielle de la charge mémoire et de la puissance de calcul nécessaire avec la longueur du texte. En effet, lorsque les modèles doivent traiter des documents de plusieurs milliers, voire des dizaines de milliers de mots, la gestion des tokens devient rapidement problématique. DeepSeek-OCR propose une solution radicalement différente : au lieu de transmettre directement le texte brut au modèle, il rend d’abord le document en image (via une mise en page fidèle), puis utilise un modèle visuel pour en extraire une représentation compacte. Cette approche, baptisée « compression contextuelle optique », s’inspire du fonctionnement humain : notre système visuel capte rapidement les structures de page, les paragraphes, les titres, sans avoir besoin de lire chaque mot individuellement. Le cœur du système repose sur deux composants clés. D’un côté, le DeepEncoder, un encodeur visuel conçu pour une compression ultra-efficace. Il combine deux architectures puissantes : SAM (Segment Anything Model), excellent pour capturer les détails locaux grâce à son attention par fenêtres, et CLIP, qui excelle dans l’analyse globale grâce à une attention dense. Entre les deux, un module de convolution à réduction de 16 fois permet de réduire drastiquement la quantité de données avant l’étape coûteuse d’attention globale. Ce design « prétraitement local suivi d’une analyse globale » évite les problèmes de mémoire et de saturation de tokens liés aux images haute résolution. De l’autre côté, le décodeur DeepSeek-3B-MoE-A570M, un modèle à mécanisme de mélanges d’experts (MoE) de 3 milliards de paramètres dont seulement 570 millions sont activés par passage. Il est chargé de « décompresser » les caractéristiques visuelles issues du DeepEncoder pour reconstruire un texte précis et structuré. Les tests menés sur les benchmarks Fox et OmniDocBench montrent des performances impressionnantes. Sur des documents anglais de 600 à 1 300 tokens, DeepSeek-OCR parvient à fonctionner avec seulement 64 à 100 tokens visuels. Avec un ratio de compression inférieur à 10, le taux de précision OCR reste supérieur à 97 %. Même à un ratio de 20, l’exactitude reste à 60 %, ce qui est remarquable pour une telle compression. Sur OmniDocBench, le modèle surpasse des modèles de pointe comme GOT-OCR2.0 (256 tokens/page) ou MinerU2.0 (plus de 6 000 tokens/page), tout en utilisant bien moins de ressources visuelles. Mais ce qui distingue DeepSeek-OCR, c’est sa capacité à comprendre non seulement du texte, mais aussi des éléments complexes : graphiques, formules chimiques, schémas géométriques. Il peut transformer un graphique en tableau, une formule moléculaire en format SMILES, ou analyser les relations spatiales dans une figure — une fonctionnalité particulièrement utile dans les domaines scientifiques, financiers ou éducatifs. DeepSeek a rendu public le code source et les poids du modèle. Selon leurs estimations, une seule GPU A100-40G peut traiter plus de 200 000 pages par jour en production. Toutefois, le modèle présente encore des limites. Au-delà d’un ratio de compression de 10, la performance baisse, probablement à cause de pertes d’information dans les mises en page complexes ou de flou dû à la réduction de résolution. De plus, si le traitement d’un document est une tâche de perception et de reconstruction, la compréhension de dialogues longs implique des capacités de mémoire, de raisonnement et de lien contextuel plus élaborées. Transformer l’historique d’un dialogue en image pourrait poser des défis pour retrouver des informations précises — une question que DeepSeek prévoit d’étudier via des tests « needle-in-a-haystack ». En somme, DeepSeek-OCR n’est pas seulement un outil OCR performant. Il ouvre une voie prometteuse : la fusion profonde entre vision et langage, où les deux modalités peuvent servir de médias de compression et de décompression mutuels. À l’avenir, cela pourrait permettre de gérer des historiques de conversation très longs ou de créer des index visuels pour des bases de connaissances massives — rendant les grands modèles plus efficaces, plus scalables, et plus accessibles.
