HyperAIHyperAI
vor 2 Monaten

Wohlbildete natürlichsprachliche Fragen identifizieren

Manaal Faruqui; Dipanjan Das
Wohlbildete natürlichsprachliche Fragen identifizieren
Abstract

Das Verstehen von Suchanfragen ist ein schwieriges Problem, da es die Bearbeitung von „Wortwirrwarr“-Texten erfordert, die von Nutzern allgegenwärtig gestellt werden. Allerdings kann ein natürlichsprachliche Verarbeitungsprozess (natural language processing pipeline) eine genauere Interpretation durchführen und so nachgeschaltete Fehlerkumulationen reduzieren, wenn eine Anfrage einer gut strukturierten Frage ähnelt. Daher kann die Identifizierung, ob eine Anfrage gut strukturiert ist oder nicht, das Verständnis der Abfrage verbessern. In diesem Beitrag stellen wir eine neue Aufgabe zur Identifizierung gut strukturierter natürlichsprachlicher Fragen vor. Wir erstellen und veröffentlichen einen Datensatz mit 25.100 öffentlich zugänglichen Fragen, die in gut strukturierte und nicht gut strukturierte Kategorien klassifiziert sind, und berichten über eine Genauigkeit von 70,7 % im Testdatensatz. Darüber hinaus zeigen wir, dass unser Klassifikator verwendet werden kann, um die Leistung neuronaler Sequenz-zu-Sequenz-Modelle (neural sequence-to-sequence models) zur Generierung von Fragen für die Leseverständnisanalyse zu verbessern.