Command Palette
Search for a command to run...
Henrique Godoy

要約
本稿では、ドキュメント情報抽出に特化して最適化された70億パラメータの言語モデル「Extract-0」を紹介する。このモデルは、数桁大きいパラメータ数を持つモデルを上回る性能を達成している。Extract-0は、合成データ生成、低ランク適応(LoRA)を用いた教師ありファインチューニング、およびグループ相対方策最適化(GRPO)による強化学習という独自の組み合わせにより、多様なドキュメント抽出タスク1,000件から構成されるベンチマークにおいて平均報酬0.573を達成し、GPT-4.1(0.457)、o3(0.464)、GPT-4.1-2025(0.459)を上回る性能を発揮した。訓練手法は、記憶保持型の合成データ生成パイプラインを採用しており、多様なドキュメントソースから280,128件のトレーニング例を生成した。その後、パラメータ効率的なファインチューニングにより、モデルの重みのわずか0.53%(76.6億パラメータ中4,040万パラメータ)のみを変更した。強化学習フェーズでは、情報抽出タスクに内在する曖昧性に対応できる新しい意味的類似度に基づく報酬関数を導入した。本研究は、タスク特化型の最適化によって、汎用モデルを上回る性能を持つモデルを構築可能であり、かつ大幅に少ない計算リソースで実現できることを示している。