Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

Ces dernières années, la reconnaissance optique de caractères (OCR) a progressivement évolué, passant de la simple « reconnaissance de texte dans les images » à une tâche complète de compréhension des documents. Les entreprises et les développeurs ont désormais besoin non seulement d'extraire du texte, mais aussi de modèles capables de reconnaître des mises en page complexes, d'analyser des tableaux et des formules, de comprendre des mises en page à plusieurs colonnes et, au final, de produire des résultats structurés adaptés aux systèmes de gestion des ressources (RAG), aux bases de connaissances ou à la bureautique. Cependant, le traitement de documents volumineux tels que des rapports numérisés, des articles, des présentations PowerPoint, des contrats et des PDF multipages…Les flux de travail OCR traditionnels nécessitent souvent un raisonnement page par page suivi d'un post-traitement et d'un assemblage, ce qui est non seulement inefficace, mais aussi susceptible d'entraîner une fragmentation des informations contextuelles.

Les modèles OCR de bout en bout de nouvelle génération, comme DeepSeek OCR, améliorent considérablement la précision de la reconnaissance et les capacités d'analyse de mises en page complexes en intégrant un modèle de langage étendu comme décodeur et en exploitant pleinement les connaissances linguistiques a priori. Cependant, un nouveau défi se pose : à mesure que le contenu de sortie augmente, le cache clé-valeur du modèle s'agrandit, ce qui entraîne une consommation de mémoire de plus en plus élevée et un ralentissement de la vitesse de génération. Autrement dit,Plus le modèle est proche de la fin du document, plus le coût d'inférence est élevé.

La solution Unlimited OCR de Baidu, récemment mise en open source, répond à ce problème majeur du secteur. Basé sur DeepSeek OCR, le modèle introduit un nouveau mécanisme d'attention par fenêtre glissante de référence (R-SWA), remplaçant le mécanisme d'attention traditionnel du décodeur. Ceci réduit le coût de calcul de l'attention tout en maintenant une taille de cache KV constante durant le processus de décodage. Combiné aux capacités élevées de compression d'informations de l'encodeur DeepSeek OCR,Unlimited OCR peut effectuer la reconnaissance optique de caractères et l'analyse de la mise en page de dizaines de pages de documents en une seule inférence directe, dans la longueur de contexte par défaut de 32 Ko.Cette approche offre une solution inédite et plus pertinente pour le traitement des documents longs. Plus important encore, R-SWA ne se limite pas à la reconnaissance optique de caractères (OCR), mais peut également être étendu à des tâches d'analyse syntaxique de longues séquences, telles que la reconnaissance vocale automatique (ASR) et la traduction automatique.

HyperAI (hyper.ai) a récemment lancé le tutoriel « Unlimited-OCR : Déploiement en un clic de l’OCR de documents longs et de l’analyse de la mise en page », abaissant ainsi le seuil de déploiement et facilitant la validation rapide des modèles. ⬇️

Exécutez en ligne :https://go.hyper.ai/YfaB5

Voir les articles connexes :https://go.hyper.ai/PZsJo

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Essai de démonstration

1. Après avoir accédé à la page d'accueil d'hyper.ai, sélectionnez la page « Tutoriels » ou cliquez sur « Voir plus de tutoriels », sélectionnez « Unlimited-OCR : Déploiement en un clic de l'OCR de documents longs et de l'analyse de la mise en page », puis cliquez sur « Exécuter ce tutoriel ».

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

4. Attendez que les ressources soient allouées. Une fois que le statut passe à « En cours d'exécution », cliquez sur « Ouvrir l'espace de travail » pour accéder à l'espace de travail Jupyter.

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour ouvrir l'interface de démonstration.

HyperAI

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

il y a 3 heures

Information

OCR

Intelligence Artificielle

Apprentissage Automatique

Exécutez en ligne :https://go.hyper.ai/YfaB5

Voir les articles connexes :https://go.hyper.ai/PZsJo

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour ouvrir l'interface de démonstration.

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

HyperAI

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

il y a 3 heures

Information

OCR

Intelligence Artificielle

Apprentissage Automatique

Exécutez en ligne :https://go.hyper.ai/YfaB5

Voir les articles connexes :https://go.hyper.ai/PZsJo

Plus de tutoriels en ligne :

https://hyper.ai/notebooks

Essai de démonstration

2. Une fois la page redirigée, cliquez sur « Cloner » en haut à droite pour cloner le tutoriel dans votre propre conteneur.

Remarque : Vous pouvez changer de langue en haut à droite de la page. Actuellement, le chinois et l’anglais sont disponibles. Ce tutoriel présente les étapes en anglais.

3. Sélectionnez les images « NVIDIA RTX 5090 » et « PyTorch », puis cliquez sur « Continuer l'exécution de la tâche ».

Affichage des effets

1. Une fois la page redirigée, cliquez sur le fichier README à gauche, puis sur « Exécuter » en haut.

2. Une fois le processus terminé, cliquez sur l'adresse API à droite pour ouvrir l'interface de démonstration.

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Un Modèle De Détection De Confidentialité Exécutable Localement : Privacy Filter Assure Un Filtrage Des Données Personnelles De Haute Qualité À Faible Coût ; Entièrement Open Source ! Compatible Avec L’ensemble De Données Structurées Transfermarkt Contenant Plus De 80 000 Matchs De football.

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Command Palette

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

Essai de démonstration

Affichage des effets

Command Palette

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

Essai de démonstration

Affichage des effets

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Command Palette

Tutoriel En Ligne | Analyse Contextuelle De 32 000 Mots Sur Des Dizaines De Pages De Documents Simultanément : Baidu Open Sources Unlimited OCR, Refactorisation De Scénarios Complexes Avec Des Documents Longs

Essai de démonstration

Affichage des effets

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme

Associé Actualités

Rapide Et Précis ! Cohere Publie Un Modèle De Transcription Open Source ; Analyse Précise De Scénarios Complexes : Le Modèle De Langage Visuel Chandra-ocr-2 Permet Une Reconnaissance Optique De Caractères (OCR) précise.

Tutoriel En Ligne | Modification Intensive d'une Seule Carte Disponible ; MiniCPM-V-4.6 Open-source, Modèle De Bord 1.3B Prenant En Charge La Compréhension d'images/de vidéos/OCR/dialogue Multimodal À Plusieurs tours.

Obtenez Une « Liberté De Voix off » Avec Seulement 3 Secondes d'audio : Le Modèle De Parole open-source Mistral Voxtral-4B-TTS-2603 ; Établissez Une Nouvelle Référence En Matière De Qualité Des Données : Le Pré-entraînement Sutra 10B.

Tencent Rend open-source Le Modèle De Traduction Hy-MT1.5 : 440MB Atteint Des Capacités De Traduction De Haut Niveau ; Le MIT Publie Conjointement MathNet : Un Banc D’essai D’inférence Mathématique Multimodale Couvrant 27 000 Problèmes Mathématiques Réels Des Olympiades.

Tutoriel En Ligne | NVIDIA Open Source LocateAnything, Un Modèle 3B Qui Permet Le Pointage De Cibles d'images Et De Vidéos, La Détection d'objets À Vocabulaire Ouvert, La Localisation De Cibles, La Localisation De Texte OCR Et d'autres fonctions.

Tutoriel Gratuit En Ligne Sur Les Processeurs | Agent Hermes : Apprendre La Mémoire À Long Terme ? Le Plugin D’amélioration De La Mémoire TencentDB Agent Memory Peut Stocker Séparément Les Faits, Les Préférences, Les États Des Tâches, etc.

Tutoriel En Ligne | Guide Approfondi Sur Le Suivi d'instructions/l'inférence/la Programmation : Mistral Medium 3.5 Déploie Des Agents De Programmation Dans Le Cloud

Tutoriels En Ligne | Petite Taille, Grande Puissance De Code : Qwen3.6-27B Atteint Des Capacités De Programmation De Niveau Haut De Gamme