密度の法則密度の法則
デンシング法は、2024 年 12 月に清華大学自然言語処理研究所の Liu Zhiyuan 教授のチームによって提案された大規模言語モデル (LLM) に関する新しい概念です。関連する論文結果は「LLM の密度の法則”。
密度の法則は、大規模言語モデル (LLM) の機能密度が時間の経過とともに指数関数的に増加する傾向を説明します。機能密度は、特定の LLM の実際のパラメーター サイズに対する有効パラメーター サイズの比率として定義されます。ここで、有効パラメーター サイズとは、ターゲット モデルと同等のパフォーマンスを達成するために必要な参照モデルのパラメーターの数を指します。この法則は、さまざまなスケールでの LLM のパフォーマンスと効率を明らかにし、LLM の開発を評価および最適化するための新しい視点を提供します。
研究チームは、広く使用されている 29 のオープンソースの大規模モデルを分析した結果、LLM の最大機能密度が時間の経過とともに指数関数的に増加し、約 3.3 か月 (約 100 日) ごとに 2 倍になることを発見しました。密度の法則によれば、モデル推論のオーバーヘッドは時間の経過とともに指数関数的に減少します。 2023 年 1 月から現在までに、GPT-3.5 レベル モデルの推論コストは 266.7 分の 1 に削減されました。
密度の法則は、特に計算リソースの需要と環境への影響の増大という課題に直面して、モデルのパフォーマンスと効率の間のバランスを見つけることの重要性を強調しています。さらに、この法則は、枝刈りや蒸留などの既存のモデル圧縮方法では、一般に圧縮モデルの密度を向上させることができないとも述べており、小さなモデルの密度を向上させるには、より効率的なモデル圧縮アルゴリズムが必要であることを示しています。