RAFT: Ein Benchmark für Few-Shot-Textklassifikation in der realen Welt

Große vortrainierte Sprachmodelle haben vielversprechende Ergebnisse bei Few-Shot-Lernen gezeigt, indem sie textbasierte Aufgaben lösen können, wenn nur wenige auf die jeweilige Aufgabe zugeschnittene Beispiele bereitgestellt werden. Können Modelle bald Klassifizierungsaufgaben bewältigen, die bisher ausschließlich menschlichen Forschungshelfer vorbehalten waren? Bestehende Benchmark-Datenbanken sind nicht darauf ausgelegt, Fortschritte in anwendungsorientierten Szenarien zu messen, und beantworten diese Frage daher nicht direkt. Der RAFT-Benchmark (Real-world Annotated Few-shot Tasks) konzentriert sich auf natürlich vorkommende Aufgaben und verwendet eine Evaluierungssituation, die einer realen Bereitstellung entspricht. Baseline-Evaluierungen auf RAFT offenbaren Bereiche, in denen aktuelle Techniken Schwierigkeiten haben: Reasoning über lange Texte und Aufgaben mit vielen Klassen. Menschliche Baselines zeigen, dass einige Klassifizierungsaufgaben auch für Laien schwierig sind, was darauf hinweist, dass der praktische Nutzen solcher Aufgaben gelegentlich von fachlichem Spezialwissen abhängt. Dennoch übertreffen selbst nicht-expertise menschliche Baselines den GPT-3 im Durchschnitt um 0,11 im F1-Score. Die RAFT-Datensätze und der Leaderboard werden verfolgen, welche Modellverbesserungen sich in echten Nutzen übersetzen, unter https://raft.elicit.org.