LiLT: Ein einfacher, aber effektiver sprachunabhängiger Layout-Transformer für die Verarbeitung strukturierter Dokumente

Die strukturierte Dokumentenverarbeitung hat in letzter Zeit erhebliche Aufmerksamkeit und bedeutende Fortschritte erlebt, aufgrund ihrer entscheidenden Rolle bei der intelligenten Bearbeitung von Dokumenten. Dennoch können die meisten existierenden Modelle nur mit den in der Vortrainingsammlung enthaltenen Dokumentendaten einer bestimmten Sprache (in der Regel Englisch) umgehen, was eine erhebliche Einschränkung darstellt. Um dieses Problem zu lösen, schlagen wir einen einfachen, aber effektiven sprachunabhängigen Layout-Transformer (LiLT) für die strukturierte Dokumentenverarbeitung vor. LiLT kann auf strukturierten Dokumenten einer einzelnen Sprache vortrainiert werden und dann direkt an andere Sprachen angepasst werden, indem entsprechende fertig trainierte mono- oder mehrsprachige textuelle Modelle verwendet werden. Experimentelle Ergebnisse in acht Sprachen haben gezeigt, dass LiLT wettbewerbsfähige oder sogar überlegene Leistungen bei verschiedenen weit verbreiteten Downstream-Benchmarks erzielen kann. Dies ermöglicht es, sprachunabhängige Vorteile aus dem Vortraining der Dokumentenlayoutstruktur zu ziehen. Der Quellcode und das Modell sind öffentlich unter https://github.com/jpWang/LiLT verfügbar.