HyperAIHyperAI

Command Palette

Search for a command to run...

RAFT: Ein Benchmark für Few-Shot-Textklassifikation in der realen Welt

Zusammenfassung

Große vortrainierte Sprachmodelle haben vielversprechende Ergebnisse bei Few-Shot-Lernen gezeigt, indem sie textbasierte Aufgaben lösen können, wenn nur wenige auf die jeweilige Aufgabe zugeschnittene Beispiele bereitgestellt werden. Können Modelle bald Klassifizierungsaufgaben bewältigen, die bisher ausschließlich menschlichen Forschungshelfer vorbehalten waren? Bestehende Benchmark-Datenbanken sind nicht darauf ausgelegt, Fortschritte in anwendungsorientierten Szenarien zu messen, und beantworten diese Frage daher nicht direkt. Der RAFT-Benchmark (Real-world Annotated Few-shot Tasks) konzentriert sich auf natürlich vorkommende Aufgaben und verwendet eine Evaluierungssituation, die einer realen Bereitstellung entspricht. Baseline-Evaluierungen auf RAFT offenbaren Bereiche, in denen aktuelle Techniken Schwierigkeiten haben: Reasoning über lange Texte und Aufgaben mit vielen Klassen. Menschliche Baselines zeigen, dass einige Klassifizierungsaufgaben auch für Laien schwierig sind, was darauf hinweist, dass der praktische Nutzen solcher Aufgaben gelegentlich von fachlichem Spezialwissen abhängt. Dennoch übertreffen selbst nicht-expertise menschliche Baselines den GPT-3 im Durchschnitt um 0,11 im F1-Score. Die RAFT-Datensätze und der Leaderboard werden verfolgen, welche Modellverbesserungen sich in echten Nutzen übersetzen, unter https://raft.elicit.org.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp