11日前
大規模言語モデルをより優れたデータ生成者へと改善する
Dong-Ho Lee, Jay Pujara, Mohit Sewak, Ryen W. White, Sujay Kumar Jauhar

要約
大規模言語モデル(LLMs)は自然言語処理(NLP)分野における性能の上限を著しく押し上げてきたが、コスト、応答性、制御性、およびプライバシー・セキュリティに関する懸念から、実用的なアプリケーションへの導入は依然として困難である。そのような背景から、特定の状況ではトレーナブルモデル(学習可能なモデル)が依然として好まれる選択肢となっている。しかしながら、こうしたモデルは最適な性能を発揮するためには人手によるラベル付けされたデータを必要とし、その収集は費用が高く、時間もかかる。この課題に対処するため、LLMを用いてデータのラベル付けや生成を行うことで人手の負担を軽減する手法がいくつか提案されている。これらの手法は特定の用途では有効であるものの、実際の現場では課題に直面する。ラベル付けには慎重なデータ選定が求められる一方、データ生成にはタスク固有のプロンプト設計(prompt engineering)が必要となる。本論文では、単一のフォーマット例のみを入力として用いることで、幅広いタスクに適用可能な統一されたデータ作成パイプラインを提案する。このパイプラインは、意味的に空虚なラベル空間を持つ従来困難視されてきたタスクにも対応可能である。実験の結果、指示追従型LLMは極めてコスト効率の高いデータ生成ツールであることが示され、そのデータで学習されたモデルは、分布外(out-of-distribution)評価において、人手ラベルデータで学習されたモデルよりも最高で17.5%優れた性能を発揮した一方で、分布内(in-distribution)タスクでは同等の性能を維持した。これらの結果は、実世界に導入されるNLPシステムの堅牢性(ロバスト性)に重要な示唆を与えるものである。