Command Palette
Search for a command to run...
Dolphin : Analyse d'images de documents par incitation par ancres hétérogènes
Hao Feng Shu Wei Xiang Fei Wei Shi Yingdong Han et al

Résumé
L’analyse d’images de documents est un défi en raison de la complexité des éléments entremêlés, tels que les paragraphes de texte, les figures, les formules mathématiques et les tableaux. Les approches actuelles consistent soit à combiner des modèles experts spécialisés, soit à générer directement le contenu au niveau de la page de manière autoregressive, mais elles souffrent de surcharges d’intégration, de goulets d’étranglement en efficacité et de dégradation de la structure de mise en page, malgré leurs performances satisfaisantes. Pour surmonter ces limites, nous proposons \textit{Dolphin} (\textit{\textbf{Do}cument Image \textbf{P}arsing via \textbf{H}eterogeneous Anchor Prompt\textbf{in}g}), un nouveau modèle multimodal pour l’analyse d’images de documents, fondé sur un paradigme d’analyse puis de parsing. Dans une première étape, Dolphin génère une séquence d’éléments de mise en page dans l’ordre de lecture. Ces éléments hétérogènes, agissant comme des repères, sont couplés à des indicateurs spécifiques aux tâches et renvoyés à Dolphin pour un parsing parallèle du contenu lors d’une deuxième étape. Pour entraîner Dolphin, nous avons construit un jeu de données à grande échelle comprenant plus de 30 millions d’exemples, couvrant des tâches de parsing à plusieurs granularités. Des évaluations approfondies menées sur des benchmarks courants ainsi que sur des jeux de données spécifiquement conçus montrent que Dolphin atteint des performances de pointe dans diverses configurations, tant au niveau de la page que des éléments, tout en garantissant une efficacité supérieure grâce à son architecture légère et à son mécanisme de parsing parallèle. Le code source et les modèles pré-entraînés sont disponibles publiquement à l’adresse suivante : ce lien URL
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.