Beantwortung komplexer offener Domänen-Fragen durch iterative Abfragegenerierung

Aktuelle Einstufige Retrieve-and-Read-Frage-Antwort-Systeme stoßen bei Fragen wie „Welcher Roman des Autors von ‚Armada‘ wird von Steven Spielberg als Spielfilm verfilmt?“ auf erhebliche Schwierigkeiten, da die Frage selten direkt abrufbare Hinweise auf die fehlende Entität (hier: der Autor) enthält. Die Beantwortung solcher Fragen erfordert mehrschrittiges Schließen, bei dem zunächst Informationen über die fehlende Entität (bzw. relevante Fakten) gesammelt werden müssen, um fortgeschrittene Schlussfolgerungen ziehen zu können. Wir stellen den GoldEn (Gold Entity) Retriever vor, ein System, das iterativ zwischen dem Lesen von Kontext und dem Abrufen zusätzlicher unterstützender Dokumente wechselt, um offene-domänen-basierte mehrschrittige Fragen zu beantworten. Im Gegensatz zu undurchsichtigen und rechenintensiven neuronalen Retrieval-Modellen generiert der GoldEn Retriever auf Basis der Frage und des verfügbaren Kontexts natürlichsprachliche Suchanfragen und nutzt dabei etablierte Information Retrieval-Systeme, um nach fehlenden Entitäten zu suchen. Dadurch ermöglicht der GoldEn Retriever eine effiziente Skalierung für offene-domänen-basierte mehrschrittige Schlussfolgerungen, während gleichzeitig die Interpretierbarkeit gewahrt bleibt. Wir evaluieren den GoldEn Retriever auf dem kürzlich vorgestellten offenen-domänen-basierten mehrschrittigen QA-Datensatz HotpotQA und zeigen, dass er das bisher beste veröffentlichte Modell übertrifft – trotz des Verzichts auf vortrainierte Sprachmodelle wie BERT.