Denoising-Table-Text-Retrieval für fragebasierte Antwortsysteme im offenen Bereich

Bei der tabellen- und textbasierten offenen Domänen-Fragebeantwortung zieht ein Retrieval-System relevante Beweise aus Tabellen und Texten, um Fragen zu beantworten. Frühere Studien zur tabellen- und textbasierten offenen Domänen-Fragebeantwortung weisen zwei häufige Herausforderungen auf: Erstens können ihre Retriever durch falsch positive Etiketten in den Trainingsdatensätzen beeinflusst werden; zweitens haben sie Schwierigkeiten, angemessene Beweise für Fragen bereitzustellen, die eine Schlussfolgerung über mehrere Tabellenzeilen erfordern. Um diese Probleme zu lösen, schlagen wir den Denoised Table-Text Retriever (DoTTeR) vor. Unser Ansatz basiert auf einem verkleinerten Trainingsdatensatz mit weniger falsch positiven Etiketten, wobei Instanzen mit niedrigerer Frage-Relevanz durch ein Modell zur Erkennung falsch positiver Etiketten ausgeschlossen werden. Anschließend integrieren wir Ranginformationen auf Tabellenebene in den Retriever, um die Suche nach Beweisen für Fragen zu unterstützen, die eine Schlussfolgerung über mehrere Tabellenzeilen erfordern. Um diese Ranginformationen zu kodieren, feinjustieren wir einen rangbewussten Spalten-Encoder, um minimale und maximale Werte innerhalb einer Spalte zu identifizieren. Experimentelle Ergebnisse zeigen, dass DoTTeR sowohl in Bezug auf die Retrieval-Recall-Rate als auch in den nachfolgenden Fragebeantwortungsaufgaben deutlich gegenüber starken Baselines abschneidet. Der Quellcode ist unter https://github.com/deokhk/DoTTeR verfügbar.