Eine Gründliche Untersuchung der CNN/Daily Mail Leseverständnistests

Das Enablement eines Computers, ein Dokument zu verstehen, um Verständnisfragen zu beantworten, ist ein zentrales, aber bisher ungelöstes Ziel der NLP (Natural Language Processing). Ein wesentlicher Faktor, der die Lösung durch maschinell gelernte Systeme erschwert, ist die begrenzte Verfügbarkeit von menschlich annotierten Daten. Hermann et al. (2015) versuchen dieses Problem zu lösen, indem sie über eine Million Trainingsbeispiele erstellen, indem sie CNN- und Daily-Mail-Nachrichtenartikel mit ihren zusammengefassten Punkten verbinden. Sie zeigen, dass ein neuronales Netzwerk dann trainiert werden kann, um gute Leistungen bei dieser Aufgabe zu erzielen. In dieser Arbeit führen wir eine gründliche Untersuchung dieser neuen Leseverständnisaufgabe durch. Unser primäres Ziel ist es zu verstehen, welche Tiefe des Sprachverständnisses erforderlich ist, um gut in dieser Aufgabe abzuschneiden. Wir gehen dies einerseits an, indem wir eine sorgfältige manuelle Analyse eines kleinen Teils der Probleme durchführen und andererseits dadurch, dass wir zeigen, dass einfache, sorgfältig konzipierte Systeme Genauigkeiten von 73,6 % und 76,6 % auf diesen beiden Datensätzen erreichen können. Diese Ergebnisse übertreffen die aktuellen Stand-of-the-Art-Ergebnisse um 7-10 % und nähern sich dem Level, das wir für die Obergrenze der Leistungsfähigkeit bei dieser Aufgabe halten.