17日前
GPT-4oをゴールドスタンダードとして:LLM事前学習データをフィルタリングするスケーラブルで汎用的なアプローチ
Jifan Zhang, Ziyue Luo, Jia Liu, Ness Shroff, Robert Nowak

要約
大規模言語モデルは高品質な訓練データを大量に必要とするが、ウェブスケールのデータセットに対する効果的なフィルタリングは依然として大きな課題である。本論文では、GPT-4oが高品質な訓練データを非常に効果的に識別できることを示す。しかし、その膨大なコストのため、ウェブスケールでの利用は現実的ではない。そこで、本研究では、GPT-4oの精度に匹敵しつつ、そのコストの1%未満で運用可能な軽量な代替手法であるSIEVEを提案する。SIEVEは、1回のGPT-4oフィルタリング処理に要するコストで、最大500回のフィルタリング操作を実行可能である。SIEVEの鍵となるのは、GPT-4oと軽量なテキスト分類モデルをシームレスに統合し、アクティブラーニングを用いて少数のGPT-4o呼び出しで背景でモデルを微調整するアプローチである。訓練が完了した後、SIEVEはGPT-4oと同等の性能を、極めて小さなコストで実現する。さまざまなフィルタリングプロンプトを用いることで、SIEVEはウェブスケールのコーパスから汎用的または専門的領域向けの高品質データを効率的に収集可能であり、現在の高品質なドメイン特化データセットの不足を考えると、極めて価値のある能力である。自動評価および人間評価を用いた広範な実験により、SIEVEとGPT-4oが5つの高度に特化したフィルタリングプロンプトにおいて類似の性能を達成することが確認された。さらに、ウェブクロールデータセットに対する品質フィルタリングにおいて、SIEVEがDataComp-LMチャレンジにおける大規模言語モデルの事前学習データ選定において、既存の最先端手法を上回る性能を発揮することを実証した。