Au-delà De L’ocr Traditionnel ! Déploiement En Un Clic De La Dernière Réalisation De Google, InkSight : Reconnaissance Précise Du Texte Manuscrit, Sans Pression Sur Le Chinois Et L'anglais

Dans le passé, la première leçon que les gens apprenaient en entrant à l'école était la posture correcte pour tenir le stylo, puis ils commençaient à apprendre à écrire à partir des chiffres arabes de base et du pinyin chinois, puis passaient progressivement aux caractères chinois et à l'anglais. Souvent, le style d'écriture d'une personne est étroitement lié à ses traits de personnalité, de vigoureux et puissant à audacieux et sans retenue, de beau et élégant à tranquille et paisible...
De nos jours, les documents électroniques basés sur les ordinateurs, les téléphones portables et les tablettes ont rapidement remplacé l'écriture manuscrite dans de nombreux scénarios, et le « sans papier » progresse également régulièrement dans le cadre de la tendance générale à la protection de l'environnement et à la réduction des émissions de carbone. Cependant, les textes manuscrits sont toujours actifs dans la vie quotidienne des gens, comme les notes d'étude, l'inspiration et la créativité impromptues, etc. Dans le même temps, les documents anciens sont pour la plupart copiés à la main, et leur conversion au format électronique permet un stockage à long terme ou une récupération instantanée.
À cette fin, la reconnaissance précise du texte manuscrit est cruciale.La technologie traditionnelle de reconnaissance optique de caractères (OCR) fonctionne souvent mal lorsqu'elle est confrontée à des arrière-plans encombrés ou à une écriture manuscrite floue, ce qui entraîne une réduction significative de la précision de la reconnaissance.
Récemment, Google Research a publié une nouvelle fonctionnalité, InkSight, qui est différente de l'OCR, qui transcrit simplement l'écriture manuscrite en documents texte.InkSight peut capturer la collection de traits de documents manuscrits et réaliser la reconnaissance de texte manuscrit de manière plus naturelle.
Plus précisément, les chercheurs ont proposé une méthode de rendu capable de prendre des photos de textes manuscrits et d’en extraire les traits écrits, tout en éliminant le recours aux structures géométriques typiques (c’est-à-dire en utilisant des dégradés, des contours et des formes dans les images pour extraire les traits écrits).Le modèle de formation imite les humains pour comprendre la « lecture » et l’« écriture »,Le premier peut reconnaître un texte écrit, tandis que le second peut produire des traits semblables à ceux de l'écriture manuscrite et accumuler une compréhension de l'apparence et du sens du texte en réécrivant et en apprenant continuellement le texte manuscrit.
Maintenant,La section tutoriel du site officiel d'HyperAI a lancé « InkSight Demo pour numériser du texte manuscrit ».Clonage en un clic pour en faire l'expérience en ligne ! Venez convertir votre « trésor d'encre » au format électronique~
Lien du tutoriel :
Essai de démonstration
1. Connectez-vous à hyper.ai, sur la page Tutoriels, sélectionnez InkSight Digitize Handwritten Text Demo, puis cliquez sur Exécuter ce tutoriel en ligne.


2. Une fois la page affichée, cliquez sur « Cloner » dans le coin supérieur droit pour cloner le didacticiel dans votre propre conteneur.

3. Cliquez sur « Suivant : sélectionner le taux de hachage » dans le coin inférieur droit.

4. Une fois la page affichée, sélectionnez « NVIDIA GeForce RTX 4090 » et l'image « PyTorch », puis sélectionnez « Pay as you go » ou « Daily/Weekly/Monthly Package » selon vos besoins, puis cliquez sur « Next : Review ». Les nouveaux utilisateurs peuvent s'inscrire en utilisant le lien d'invitation ci-dessous pour obtenir 4 heures de RTX 4090 + 5 heures de temps CPU gratuit !
Lien d'invitation exclusif HyperAI (copier et ouvrir dans le navigateur) :
https://openbayes.com/console/signup?r=Ada0322_QZy7

5. Après confirmation, cliquez sur « Continuer » et attendez que les ressources soient allouées. Le premier processus de clonage prendra environ 3 minutes. Lorsque le statut passe à « En cours d'exécution », cliquez sur la flèche de saut à côté de « Adresse API » pour accéder à la page de démonstration.Veuillez noter que les utilisateurs doivent effectuer l'authentification par nom réel avant d'utiliser la fonction d'accès à l'adresse API.
Étant donné que le modèle est trop volumineux, une fois que le conteneur indique qu'il est en cours d'exécution, vous devez attendre environ 1 minute avant d'ouvrir l'adresse API, sinon BadGateway s'affichera.



Affichage des effets
Après avoir ouvert l'interface de démonstration,Le tutoriel est divisé en deux modes : « Inférence au niveau du mot » et « Inférence sur toute la page ».Remarque : la transcription de mots s’applique uniquement à la reconnaissance de caractères ou de mots uniques.
Je me suis ridiculisé en écrivant à la main « Que tout se passe bien » et une réplique classique de « Forrest Gump ». Le chinois et l'anglais ont été reconnus avec précision !



Nous avons créé un « Groupe d'échange de tutoriels de diffusion stable ». Bienvenue aux amis pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats des applications~
Scannez le code QR ci-dessous pour ajouter HyperaiXingXing sur WeChat (ID WeChat : Hyperai01) et notez « SD Tutorial Exchange Group » pour rejoindre le chat de groupe.
