HyperAIHyperAI
il y a 17 jours

Instruction de prompt structurée et consciente de la tâche pour la réponse à des questions sur des images de documents en zéro-shot

Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang
Instruction de prompt structurée et consciente de la tâche pour la réponse à des questions sur des images de documents en zéro-shot
Résumé

Les modèles pré-entraînés sensibles à la mise en page ont connu des progrès significatifs dans le domaine de la réponse aux questions sur les images de documents. Ils introduisent des modules supplémentaires apprenables dans les modèles linguistiques existants afin de capturer les informations de mise en page présentes dans les images de documents, à partir des coordonnées des boîtes englobantes de texte obtenues par des outils OCR. Toutefois, ces modules supplémentaires nécessitent un pré-entraînement sur de vastes ensembles d'images de documents, ce qui empêche ces méthodes d'utiliser directement des modèles fondamentaux linguistiques entraînés par instruction disponibles « sur étagère », qui ont récemment montré un potentiel prometteur pour l'apprentissage zéro-shot. À la place, dans cet article, nous observons que des modèles linguistiques entraînés par instruction, tels que Claude et ChatGPT, peuvent comprendre la mise en page à travers l'utilisation d'espaces et de sauts de ligne. Sur la base de cette observation, nous proposons le LATIN-Prompt (Prompt d’instruction sensible à la mise en page et à la tâche), composé d’un contenu documentaire sensible à la mise en page et d’une instruction sensible à la tâche. Plus précisément, le premier utilise des espaces et des sauts de ligne appropriés pour restaurer l’information de mise en page entre les segments de texte extraits par les outils OCR, tandis que le second garantit que les réponses générées respectent les exigences de formatage. En outre, nous proposons LATIN-Tuning (Tuning sensible à la mise en page et à la tâche), une méthode visant à améliorer les performances des petits modèles entraînés par instruction, comme Alpaca. Les résultats expérimentaux montrent que LATIN-Prompt permet à Claude et ChatGPT d’atteindre une performance zéro-shot comparable à celle des méthodes d’étalonnage (fine-tuning) des états de l’art sur la réponse aux questions sur les images de documents, tandis que LATIN-Tuning améliore significativement la performance zéro-shot d’Alpaca. Par exemple, LATIN-Prompt améliore les performances de Claude et ChatGPT sur DocVQA respectivement de 263 % et 20 %. LATIN-Tuning améliore celle d’Alpaca sur DocVQA de 87,7 %. Des analyses quantitatives et qualitatives démontrent l’efficacité de LATIN-Prompt et de LATIN-Tuning. Nous fournissons le code dans les annexes et le rendrons disponible afin de faciliter les recherches futures.

Instruction de prompt structurée et consciente de la tâche pour la réponse à des questions sur des images de documents en zéro-shot | Articles de recherche récents | HyperAI