17日前
RAFT:現実世界における少サンプルテキスト分類ベンチマーク
Neel Alex, Eli Lifland, Lewis Tunstall, Abhishek Thakur, Pegah Maham, C. Jess Riedel, Emmie Hine, Carolyn Ashurst, Paul Sedille, Alexis Carlier, Michael Noetel, Andreas Stuhlmüller

要約
大規模な事前学習済み言語モデルは、少数のタスク固有の例のみを提示された状態でテキストベースのタスクを遂行する「少サンプル学習(few-shot learning)」において有望な成果を示している。今後、これらのモデルはこれまで人間の研究補佐者に限定されてきた分類タスクを解けるようになるだろうか?現存するベンチマークは実用的な設定における進歩を測定するように設計されておらず、この問いに直接答えることはできない。これに対して、「RAFTベンチマーク(Real-world Annotated Few-shot Tasks)」は自然に発生するタスクに焦点を当て、実際の導入環境に類似した評価設定を採用している。RAFTにおけるベースライン評価から、現在の技術が特に苦戦している領域が明らかになった:長文に対する推論や、多数のクラスを含むタスクである。人間のベースラインを用いた分析によれば、非専門家の人間にとっても一部の分類タスクは困難であり、これは現実世界での価値が場合によってはドメイン特有の専門知識に依存することを示唆している。しかし、非専門家の人間のベースラインF1スコアは、GPT-3を平均0.11ポイント上回っている。RAFTのデータセットおよびリーダーボードは、モデルの改善が実際にどのような実用的利点に結びつくかを追跡するため、https://raft.elicit.org にて公開されている。