深層学習の特徴抽出を解明:スプリング・ブロックモデルで明らかにされた学習の幾何学的構造
チューリッヒ大学と中国科学技術大学の研究チームが、深層ニューラルネットワーク(DNN)の特徴学習プロセスを、物理学と幾何学の観点から解明する新しい理論を提唱した。この研究では、DNNの各層が入力データを段階的に簡略化・分離する様子を、ばねとブロックからなる機械的モデルにたとえ、物理現象と類似した振る舞いを示すことを明らかにした。特に、データの分離が層ごとに一定のペースで進む「データ分離の法則」が、特定のハイパーパラメータ条件で成り立つことを見いだした。 研究を主導したイヴァン・ドクマニッチ氏は、DNNの深い層ほどデータの表現が幾何学的に整い、異なるクラス(例:猫と犬)のデータが明確に分離されることを指摘。この現象は、ばねでつながれたブロックが粗い面の上を滑るモデルと類似しており、ばねの伸びが特徴の簡略化、摩擦が非線形性、ノイズが訓練時の揺らぎに対応する。このモデルにより、DNNの学習過程を直感的に理解できるようになった。 また、ノイズを加えることでブロックが一時的に「空中」になり、摩擦が一時的に減少する「音響潤滑」と同様の現象が起き、分離の均一性が回復する。これは、実際のDNN訓練においても、ノイズの導入が汎化性能の向上に寄与する理由を説明する手がかりとなる。 この理論は、従来の単一要因に注目した研究とは異なり、深さ、非線形性、ノイズ、学習率など複数の要因の相互作用を統合的に捉える。さらに、データ分離曲線の形状を予測することで、モデルの未知データに対する性能を事前に評価できる可能性が示された。研究チームは、この理論をもとに、大規模なTransformerモデル(例:大規模言語モデル)の訓練を効率化するツールの開発を目指しており、特に「汎化性能の診断ツール」の構築を検討している。例えば、ネットワーク内の「過負荷層」や「未使用層」を特定し、過学習や冗長性のリスクを可視化できる。 この研究は、数え切れないパラメータを持つDNNの背後にある本質を、シンプルな物理モデルで解き明かすという画期的なアプローチであり、深層学習の理解と実用化に新たな道を開く可能性を秘めている。