9日前

小さな専門向け言語モデルが必要ですか?早期に計画を立てましょう!

David Grangier, Angelos Katharopoulos, Pierre Ablin, Awni Hannun
小さな専門向け言語モデルが必要ですか?早期に計画を立てましょう!
要約

大規模言語モデルは多目的なツールとして有用であるが、小規模な推論予算では適さない。一方、小規模モデルは推論効率が優れているものの、その容量の低さから、特定の専門分野に限定したタスクにのみ良好な性能を発揮できる。本論文では、汎用的大規模事前学習データセットと限られた専門分野データを用いて、優れた専門小規模言語モデルを構築する手法を検討する。2つの状況を想定する:(i) 各専門タスクに対して個別に事前学習を実施できる場合、および (ii) 1つの事前学習済みモデルを低コストで各タスクに適応させたい場合。前者の状況では、重要度サンプリングに基づく有効な手法を提案する。具体的には、専門分野データを模倣するように事前学習データセットを再サンプリングし、その上で小規模モデルを学習する。後者の状況では、新たなアーキテクチャ「射影ネットワーク(Projected Networks, PN)」を提案する。PNは大規模なネットワークであり、そのパラメータを線形射影によって小規模なネットワークに変換することで、特定化(専門化)を実現できる。両方の状況において、異なる分野、学習データサイズ、および学習予算の設定において、提案手法の実証的な有効性を示した。

小さな専門向け言語モデルが必要ですか?早期に計画を立てましょう! | 最新論文 | HyperAI超神経