HyperAIHyperAI

Command Palette

Search for a command to run...

Analyse d'images De Documents Multimodaux Dolphin

1. Introduction au tutoriel

Construire

Dolphin est un modèle d'analyse de documents multimodal lancé par l'équipe ByteDance en mai 2025. Ce modèle repose sur une approche en deux étapes : l'analyse de la structure, puis du contenu. La première étape génère une séquence d'éléments de mise en page du document, et la seconde utilise ces éléments comme ancres pour analyser le contenu en parallèle. Dolphin est performant dans diverses tâches d'analyse de documents, surpassant des modèles tels que GPT-4.1 et Mistral-OCR. Les résultats de l'article sont les suivants :Dolphin : analyse d'images de documents via une invite d'ancrage hétérogène". Accepté par l'ACL 2025.

Ce tutoriel utilise des ressources pour une seule carte RTX 4090.

2. Exemples de projets

3. Étapes de l'opération

1. Après avoir démarré le conteneur, cliquez sur l'adresse API pour accéder à l'interface Web

Si « Bad Gateway » s'affiche, cela signifie que le modèle est en cours d'initialisation. Étant donné que le modèle est grand, veuillez patienter environ 1 à 2 minutes et actualiser la page.

2. Exemples d'utilisation

Reconnaissance de documents

 résultat 

Reconnaissance des éléments

résultat 

4. Discussion

🖌️ Si vous voyez un projet de haute qualité, veuillez laisser un message en arrière-plan pour le recommander ! De plus, nous avons également créé un groupe d’échange de tutoriels. Bienvenue aux amis pour scanner le code QR et commenter [Tutoriel SD] pour rejoindre le groupe pour discuter de divers problèmes techniques et partager les résultats de l'application↓

Informations sur la citation

Les informations de citation pour ce projet sont les suivantes :

@inproceedings{dolphin2025,
  title={Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting},
  author={Feng, Hao and Wei, Shu and Fei, Xiang and Shi, Wei and Han, Yingdong and Liao, Lei and Lu, Jinghui and Wu, Binghong and Liu, Qi and Lin, Chunhui and Tang, Jingqun and Liu, Hao and Huang, Can},
  year={2025},
  booktitle={Proceedings of the 65rd Annual Meeting of the Association for Computational Linguistics (ACL)}
}

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Analyse d'images De Documents Multimodaux Dolphin | Tutoriels | HyperAI