Die Mängel vorab trainierter Text- und Layoutmodelle bei der Informationsextraktion aus realen, visuell reichhaltigen Dokumenten aufdecken

Kürzlich entwickelte vortrainierte Text- und Layoutmodelle (PTLMs) haben in mehreren Informationsextraktionsaufgaben bei visuell reichhaltigen Dokumenten (VrDs) bemerkenswerten Erfolg gezeigt. Dennoch fällt ihre Leistung in der Praxis trotz extrem hoher Ergebnisse auf Benchmarks hinter den Erwartungen zurück. Aufgrund dieses Problems untersuchen wir den gängigen Evaluationsprozess, um folgende Erkenntnisse zu gewinnen: (1) Die unzureichenden Annotationen in Benchmark-Datensätzen führen zu irreführenden Korrelationen zwischen Task-Eingaben und -Labels, was zu einer übermäßig optimistischen Schätzung der Modellleistung führt. (2) Die Bewertung basiert ausschließlich auf den Ergebnissen der Benchmarks und ist unzureichend, um die Fähigkeiten der Methoden in realen Szenarien umfassend zu erforschen. Diese Probleme verhindern, dass der gängige Evaluationsprozess die tatsächliche Leistung der Methoden im realen Einsatz widerspiegelt und führen zu irreführenden Entscheidungen bei der Optimierung von Methoden. In dieser Arbeit stellen wir EC-FUNSD vor, einen entitätszentrierten Datensatz, der speziell für die Bewertung von Informationsextraktion aus visuell reichhaltigen Dokumenten konzipiert wurde. Dieser Datensatz enthält vielfältige Layouts und hochwertige Annotationen. Darüber hinaus trennt dieser Datensatz die fälschlicherweise gekoppelten Segment- und Entitätsannotationen, die durch die blockweise Annotation des FUNSD entstehen. Mit dem vorgeschlagenen Datensatz bewerten wir die realweltlichen Informationsextraktionsfähigkeiten von PTLMs unter verschiedenen Aspekten, darunter ihre absolute Leistung sowie Verallgemeinerungsfähigkeit, Robustheit und Fairness. Die Ergebnisse zeigen, dass gängige PTLMs in realweltlichen Informationsextraktionszenarien nicht so gut abschneiden wie erwartet. Wir hoffen, dass unsere Studie Anlass gibt zur Reflexion über die Entwicklungsrichtungen von PTLMs.