Beat the AI: Untersuchung adversarialer menschlicher Annotationen für Reading Comprehension

Innovationen in der Annotationmethodik haben als Treiber für Reading-Comprehension-(RC)-Datensätze und -Modelle fungiert. Ein jüngster Trend, um aktuelle RC-Modelle herauszufordern, besteht darin, ein Modell in den Annotationsprozess einzubeziehen: Menschen erstellen dabei gezielt Fragen, die so formuliert sind, dass das Modell sie nicht korrekt beantworten kann. In dieser Arbeit untersuchen wir diese Annotationmethodik und wenden sie in drei unterschiedlichen Szenarien an, wobei insgesamt 36.000 Datensätze mit zunehmend leistungsfähigeren Modellen im Annotations-Loop gesammelt werden. Dies ermöglicht es uns, Fragen wie die Reproduzierbarkeit des adversarialen Effekts, den Transfer von Daten, die mit unterschiedlich starken Modellen im Loop gesammelt wurden, sowie die Generalisierung auf Daten, die ohne Modell im Loop erzeugt wurden, zu untersuchen. Wir stellen fest, dass die Trainingsauf adversarial gesammelten Daten zu einer starken Generalisierung auf nicht-adversarially gesammelte Datensätze führt, jedoch mit einer schrittweisen Leistungseinbuße bei zunehmend stärkeren Modellen im Loop. Zudem zeigen wir, dass leistungsfähigere Modelle auch aus Datensätzen lernen können, die mit deutlich schwächeren Modellen im Loop erzeugt wurden. Wenn RoBERTa auf Daten trainiert wird, die mit einem BiDAF-Modell im Loop gesammelt wurden, erreicht es eine F1-Score von 39,9 bei Fragen, die es bei Training auf SQuAD nicht beantworten kann – lediglich geringfügig unter dem Wert, den es erreicht, wenn es auf Daten trainiert wird, die mit RoBERTa selbst gesammelt wurden (41,0 F1).