LayoutLMv2 : Formation pré-entraînée multi-modale pour la compréhension de documents visuellement riches

La pré-formation du texte et de la mise en page s'est révélée efficace dans diverses tâches de compréhension de documents visuellement riches, grâce à son architecture de modèle performante et à l'avantage des documents numérisés ou nativement numériques à grande échelle non étiquetés. Nous proposons une nouvelle architecture, LayoutLMv2, avec des tâches de pré-formation supplémentaires pour modéliser l'interaction entre le texte, la mise en page et l'image au sein d'un cadre multimodal unique. Plus précisément, en utilisant un encodeur Transformer multimodal à deux flux, LayoutLMv2 ne se contente pas de la tâche existante de modélisation visuelle-linguistique masquée, mais intègre également les nouvelles tâches d'alignement texte-image et de correspondance texte-image, ce qui lui permet de mieux capturer l'interaction intermodale lors de la phase de pré-formation. Parallèlement, elle incorpore un mécanisme d'auto-attention sensible à l'espace dans l'architecture Transformer afin que le modèle puisse pleinement comprendre les relations positionnelles relatives entre différents blocs de texte. Les résultats expérimentaux montrent que LayoutLMv2 surpasse largement LayoutLM et atteint des performances sans précédent sur une large gamme de tâches de compréhension de documents visuellement riches en aval, notamment FUNSD (0.7895 $\to$ 0.8420), CORD (0.9493 $\to$ 0.9601), SROIE (0.9524 $\to$ 0.9781), Kleister-NDA (0.8340 $\to$ 0.8520), RVL-CDIP (0.9443 $\to$ 0.9564) et DocVQA (0.7295 $\to$ 0.8672). Nous avons rendu notre modèle et notre code librement accessibles à l'adresse \url{https://aka.ms/layoutlmv2}.