Datenverstärkung für das Feinjustieren von BERT in der offenen Fragebeantwortung

Kürzlich wurde eine einfache Kombination aus Passage-Retrieval unter Verwendung von Standard-IR-Techniken und einem BERT-Leser als sehr effektiv für die direkte Fragebeantwortung auf Wikipedia festgestellt. Dies führte zu erheblichen Verbesserungen im Vergleich zum bisherigen Stand der Technik in einem standardisierten Benchmark-Datensatz. In dieser Arbeit stellen wir eine Datenverstärkungstechnik vor, die durch distante Überwachung sowohl positive als auch negative Beispiele nutzt. Wir wenden einen stufenweisen Ansatz an, um BERT auf mehreren Datensätzen zu feinjustieren, beginnend mit Daten, die dem Testdatensatz am "weitesten" entfernt sind, und endend mit den "nächsten". Experimentelle Ergebnisse zeigen erhebliche Effizienzgewinne im Vergleich zu früheren Ansätzen in englischen QA-Datensätzen, und wir legen neue Baseline-Werte für zwei aktuelle chinesische QA-Datensätze fest.