Command Palette
Search for a command to run...
Yizhou Liu Ziming Liu Jeff Gore

要約
現在の大型言語モデル(LLM)の成功は、モデルが大きくなるほど性能が向上するという観察に基づいている。しかし、モデルサイズの増大に伴い損失がべき乗則に従って減少するというニューラルスケーリング則の起源については、まだ明確でない。本研究では、表現の重ね合わせ(representation superposition)——すなわち、LLMが持つ次元数よりも多くの特徴を同時に表現している現象——が、損失の低下およびニューラルスケーリングの主要な要因となり得ると提案する。アントロピック(Anthropic)が開発した簡易モデルを基に、重み減衰(weight decay)を用いて重ね合わせの程度を制御することで、モデルサイズに対する損失のスケーリングを体系的に分析できるようにした。弱い重ね合わせ条件下では、損失がべき乗則に従うのは、データの特徴頻度分布がべき乗則に従う場合に限られる。一方、強い重ね合わせが成立する場合、表現ベクトル間の幾何学的重なりの影響により、頻度分布の種類にかかわらず、損失はモデル次元に対して一般的に逆比例して減少する。我々は、オープンソース化されたLLMが強い重ね合わせ状態にあり、損失がモデル次元に対して逆比例して減少していることを確認した。また、チンチラ(Chinchilla)スケーリング則もこの挙動と整合していることを示した。これらの結果により、表現の重ね合わせがニューラルスケーリング則の中心的な駆動要因であることが明らかとなり、例えばニューラルスケーリング則がどのように改善可能か、あるいはどのような条件下で崩壊するかといった重要な問いに対する新たな知見が得られた。