TANDA: Transfer und Anpassung vortrainierter Transformer-Modelle für die Antwort-Satz-Auswahl

Wir stellen TANDA vor, eine effektive Technik zum Feintuning von vortrainierten Transformer-Modellen für Aufgaben im Bereich der natürlichen Sprache. Konkret transferieren wir zunächst ein vortrainiertes Modell durch Feintuning mit einem großen und hochwertigen Datensatz in ein Modell für eine allgemeine Aufgabe. Anschließend führen wir einen zweiten Feintuning-Schritt durch, um das übertragene Modell an den Zielbereich anzupassen. Wir zeigen die Vorteile unseres Ansatzes für die Auswahl von Antwortsätze, einer etablierten Inferenzaufgabe im Bereich der Fragebeantwortung. Zur Durchführung des Transfer-Schritts haben wir ein großskaliges Datenset aufgebaut, das die Natural Questions-Datenmenge nutzt. Unser Ansatz erreicht den Stand der Technik auf zwei bekannten Benchmarks, WikiQA und TREC-QA, mit MAP-Scores von jeweils 92 % und 94,3 %, wodurch die bisher besten Ergebnisse von 83,4 % und 87,5 % – die erst kürzlich erzielt wurden – deutlich übertroffen werden. Wir zeigen empirisch, dass TANDA stabilere und robuster Modelle generiert und somit den Aufwand für die Auswahl optimaler Hyperparameter reduziert. Zudem zeigen wir, dass der Transfer-Schritt von TANDA den Anpassungsschritt robuster gegenüber Rauschen macht, was eine effektivere Nutzung von rauschbehafteten Datensätzen beim Feintuning ermöglicht. Schließlich bestätigen wir auch in einer industriellen Anwendung den positiven Einfluss von TANDA anhand domain-spezifischer Datensätze, die unterschiedlichen Rauscharten unterliegen.