Command Palette
Search for a command to run...

要約
推論は大規模言語モデルの核心的な能力であるが、その学習メカニズムや多段階推論の実行方法についての理解は依然として未解決の課題である。本研究では、細胞自動機(cellular automata)の枠組みの中で、異なるモデルアーキテクチャおよび学習手法がモデルの多段階推論能力にどのように影響するかを検討する。初期状態をランダムに設定し、ランダムなブール関数を用いて生成された状態遷移系列を学習データとして用いることで、記憶(memorization)の影響を排除した。その結果、ほとんどのニューラルアーキテクチャが背後にある規則を抽象化して学習していることが示された。モデルは次の状態予測において高い精度を達成するが、多段階推論が要求される場合には性能が急激に低下することが確認された。また、モデルの深さ(depth)を増やすことが逐次計算において極めて重要な役割を果たすことが明らかになった。さらに、再帰(recurrence)、記憶機構、およびテスト時計算リソースのスケーリングを組み合わせた有効なモデル深さの拡張により、推論能力が著しく向上することを実証した。