HyperAIHyperAI

Command Palette

Search for a command to run...

重ね合わせが堅牢なニューラルスケーリングをもたらす

Yizhou Liu Ziming Liu Jeff Gore

Abstract

現在の大型言語モデル(LLM)の成功は、モデルが大きくなるほど性能が向上するという観察に基づいている。しかし、モデルサイズの増大に伴い損失がべき乗則に従って減少するというニューラルスケーリング則の起源については、まだ明確でない。本研究では、表現の重ね合わせ(representation superposition)——すなわち、LLMが持つ次元数よりも多くの特徴を同時に表現している現象——が、損失の低下およびニューラルスケーリングの主要な要因となり得ると提案する。アントロピック(Anthropic)が開発した簡易モデルを基に、重み減衰(weight decay)を用いて重ね合わせの程度を制御することで、モデルサイズに対する損失のスケーリングを体系的に分析できるようにした。弱い重ね合わせ条件下では、損失がべき乗則に従うのは、データの特徴頻度分布がべき乗則に従う場合に限られる。一方、強い重ね合わせが成立する場合、表現ベクトル間の幾何学的重なりの影響により、頻度分布の種類にかかわらず、損失はモデル次元に対して一般的に逆比例して減少する。我々は、オープンソース化されたLLMが強い重ね合わせ状態にあり、損失がモデル次元に対して逆比例して減少していることを確認した。また、チンチラ(Chinchilla)スケーリング則もこの挙動と整合していることを示した。これらの結果により、表現の重ね合わせがニューラルスケーリング則の中心的な駆動要因であることが明らかとなり、例えばニューラルスケーリング則がどのように改善可能か、あるいはどのような条件下で崩壊するかといった重要な問いに対する新たな知見が得られた。


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
重ね合わせが堅牢なニューラルスケーリングをもたらす | Papers | HyperAI超神経