VisualMRC: Machine Reading Comprehension auf Dokumentenbildern

Neuere Studien zum maschinellen Leseverständnis konzentrieren sich auf das Verständnis von Textebenen, erreichen jedoch noch nicht das Niveau menschlicher Wahrnehmung von visueller Anordnung und Inhalt realer Dokumente. In dieser Studie stellen wir einen neuen visuellen Datensatz zum maschinellen Leseverständnis vor, den wir VisualMRC nennen. Gegeben eine Frage und ein Dokumentbild muss ein maschinelles System die darin enthaltenen Texte lesen und verstehen, um die Frage in natürlicher Sprache zu beantworten. Im Gegensatz zu bestehenden visuellen Frage-Antwort-Datensätzen (VQA), die Texte in Bildern enthalten, legt VisualMRC stärker den Fokus auf die Entwicklung von Fähigkeiten im natürlichen Sprachverständnis und -generierung. Der Datensatz umfasst über 30.000 Paare aus Frage und abstrakt formulierter Antwort für mehr als 10.000 Dokumentbilder aus verschiedenen Domänen von Webseiten. Außerdem stellen wir ein neues Modell vor, das bestehende sequenz-zu-Sequenz-Modelle erweitert, die mit großskaligen Textkorpora vortrainiert wurden, um die visuelle Anordnung und den Inhalt von Dokumenten besser zu berücksichtigen. Experimente mit VisualMRC zeigen, dass das vorgestellte Modell sowohl die Basis-sequenz-zu-Sequenz-Modelle als auch ein state-of-the-art-VQA-Modell übertrifft. Dennoch liegt seine Leistung auf den meisten automatischen Bewertungsmetriken noch unter der menschlichen Leistung. Der Datensatz wird die Forschung zur Verbindung von visuellem und sprachlichem Verständnis fördern.