vor 17 Tagen

RAFT: Ein Benchmark für Few-Shot-Textklassifikation in der realen Welt

Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C. Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, Michael Noetel, Andreas Stuhlmüller

Details der Forschungsarbeit anzeigen

RAFT: Ein Benchmark für Few-Shot-Textklassifikation in der realen Welt

Abstract

Große vortrainierte Sprachmodelle haben vielversprechende Ergebnisse bei Few-Shot-Lernen gezeigt, indem sie textbasierte Aufgaben lösen können, wenn nur wenige auf die jeweilige Aufgabe zugeschnittene Beispiele bereitgestellt werden. Können Modelle bald Klassifizierungsaufgaben bewältigen, die bisher ausschließlich menschlichen Forschungshelfer vorbehalten waren? Bestehende Benchmark-Datenbanken sind nicht darauf ausgelegt, Fortschritte in anwendungsorientierten Szenarien zu messen, und beantworten diese Frage daher nicht direkt. Der RAFT-Benchmark (Real-world Annotated Few-shot Tasks) konzentriert sich auf natürlich vorkommende Aufgaben und verwendet eine Evaluierungssituation, die einer realen Bereitstellung entspricht. Baseline-Evaluierungen auf RAFT offenbaren Bereiche, in denen aktuelle Techniken Schwierigkeiten haben: Reasoning über lange Texte und Aufgaben mit vielen Klassen. Menschliche Baselines zeigen, dass einige Klassifizierungsaufgaben auch für Laien schwierig sind, was darauf hinweist, dass der praktische Nutzen solcher Aufgaben gelegentlich von fachlichem Spezialwissen abhängt. Dennoch übertreffen selbst nicht-expertise menschliche Baselines den GPT-3 im Durchschnitt um 0,11 im F1-Score. Die RAFT-Datensätze und der Leaderboard werden verfolgen, welche Modellverbesserungen sich in echten Nutzen übersetzen, unter https://raft.elicit.org.