HyperAIHyperAI

Command Palette

Search for a command to run...

RAFT:現実世界における少サンプルテキスト分類ベンチマーク

概要

大規模な事前学習済み言語モデルは、少数のタスク固有の例のみを提示された状態でテキストベースのタスクを遂行する「少サンプル学習(few-shot learning)」において有望な成果を示している。今後、これらのモデルはこれまで人間の研究補佐者に限定されてきた分類タスクを解けるようになるだろうか?現存するベンチマークは実用的な設定における進歩を測定するように設計されておらず、この問いに直接答えることはできない。これに対して、「RAFTベンチマーク(Real-world Annotated Few-shot Tasks)」は自然に発生するタスクに焦点を当て、実際の導入環境に類似した評価設定を採用している。RAFTにおけるベースライン評価から、現在の技術が特に苦戦している領域が明らかになった:長文に対する推論や、多数のクラスを含むタスクである。人間のベースラインを用いた分析によれば、非専門家の人間にとっても一部の分類タスクは困難であり、これは現実世界での価値が場合によってはドメイン特有の専門知識に依存することを示唆している。しかし、非専門家の人間のベースラインF1スコアは、GPT-3を平均0.11ポイント上回っている。RAFTのデータセットおよびリーダーボードは、モデルの改善が実際にどのような実用的利点に結びつくかを追跡するため、https://raft.elicit.org にて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています