17日前

大規模言語モデルのチェーン・オブ・シンキング推論は幻か?データ分布の視点から

Chengshuai Zhao, Zhen Tan, Pingchuan Ma, Dawei Li, Bohan Jiang, Yancheng Wang, Yingzhen Yang, Huan Liu
大規模言語モデルのチェーン・オブ・シンキング推論は幻か?データ分布の視点から
要約

チェーン・オブ・シンキング(CoT)プロンプティングは、さまざまなタスクにおいて大規模言語モデル(LLM)の性能向上を示している。このアプローチでは、LLMが回答を提示する前に、人間のような推論ステップを生成しているように見える(いわゆるCoT推論)が、その結果、モデルが意図的な推論プロセスに従っていると捉えられることが多い。しかし、初期の研究結果は、CoT推論が表面的なものに過ぎず、実際にはより深遠な意味を持つとは限らない可能性を示唆しており、この点をさらに探求する必要があると考えられる。本論文では、データ分布の視点からCoT推論を分析し、CoT推論が訓練データ内に存在する構造的な帰納的バイアス(inductive bias)を学習した結果であるかどうかを検証する。具体的には、モデルが訓練時に観測された推論経路に近似する条件付き推論パスを生成できるかどうかを検討する。この観点から、CoT推論の有効性は、訓練データとテストクエリ間の分布差異の程度によって本質的に制限される。このような視点に基づき、我々はタスク、長さ、フォーマットの3つの次元からCoT推論を分析する。各次元を検証するため、LLMを完全にゼロから訓練可能な独立的かつ制御可能な環境「DataAlchemy」を設計し、さまざまな分布条件下でモデルを系統的に検証した。得られた結果は、CoT推論は訓練データ分布を超えるとすぐに崩壊する脆弱な幻影であることを示している。本研究は、CoT推論がなぜ、そしていつ失敗するのかをより深く理解する手がかりを提供し、真の汎用的推論を達成するという課題が依然として重要な課題であることを強調している。