Generative Augmented Retrieval für Open-domain Question Answering

Wir schlagen Generation-Augmented Retrieval (GAR) zur Beantwortung offener Domänen-Fragen vor, bei dem eine Anfrage durch Textgenerierung heuristisch entdeckter relevanter Kontexte ohne externe Ressourcen als Supervision erweitert wird. Wir zeigen, dass die generierten Kontexte die Semantik der Anfragen erheblich bereichern und dass GAR mit spärlichen Repräsentationen (BM25) eine vergleichbare oder sogar bessere Leistung erzielt als aktuelle state-of-the-art dichte Retrieval-Methoden wie DPR. Wir belegen, dass die Generierung vielfältiger Kontexte für eine Anfrage vorteilhaft ist, da die Fusion ihrer Ergebnisse konsistent eine höhere Retrieval-Genauigkeit liefert. Darüber hinaus, da spärliche und dichte Repräsentationen oft ergänzend wirken, lässt sich GAR problemlos mit DPR kombinieren, um noch bessere Ergebnisse zu erzielen. GAR erreicht unter der extraktiven QA-Setup auf den Datensätzen Natural Questions und TriviaQA state-of-the-art Leistung, wenn ein extraktiver Leser eingesetzt wird, und übertrifft konsistent andere Retrieval-Methoden, wenn derselbe generative Leser verwendet wird.