Command Palette
Search for a command to run...
Adrian Kosowski Przemysław Uznański Jan Chorowski Zuzanna Stamirowska Michał Bartoszkiewicz

要約
計算システムと脳の関係性は、ジョン・フォン・ノイマンやアラン・チューリングといった先駆的な理論家たちにとって、長年にわたり重要な動機付けとなってきました。脳をはじめとする均質的かつスケールフリーな生物学的ネットワークは、時間とともに一般化する能力など、強力な性質を備えており、これは汎用的推論モデル(Universal Reasoning Models)への道のりにおける主要な障壁となっています。本研究では、局所的に相互作用するニューロン粒子から構成されるスケールフリーな生物学的ネットワークに基づく、新たな大規模言語モデル「Dragon Hatchling(BDH)」を提案します。BDHは、トランスフォーマー型の性能を損なうことなく、強固な理論的基盤と内在的な解釈可能性を兼ね備えています。BDHは、実用的かつ高性能な最先端のアテンションベースの状態空間系列学習アーキテクチャです。グラフモデルとしての性質に加え、GPUに優しい数式表現を備えており、トランスフォーマーと同様のスケーリング則を示します。実証的に、BDHは1000万~10億パラメータ(10M to 1B)の範囲で、同じ訓練データを用いた場合、言語処理および翻訳タスクにおいてGPT-2と同等の性能を達成しています。BDHは脳モデルとして解釈可能であり、推論時の作業記憶は、スパイキングニューロンを用いたヘッビアン学習に基づくシナプス可塑性に完全に依存しています。実験的に、BDHが特定の概念を音声で受信したり、その概念について推論処理している際には、特定の個々のシナプスが強化されることが確認されました。BDHのニューロン相互作用ネットワークは、高いモジュール性と重い尾部を持つ次数分布(heavy-tailed degree distribution)を示すグラフであり、人間の神経細胞が言語を獲得・処理する可能性のあるメカニズムの一例を生物学的に妥当な形で説明しています。さらに、BDHは解釈可能性を設計上の重点としています。BDHの活性化ベクトルはスパースかつ正の値をとります。本研究では、BDHにおける言語タスクにおけるモノセマンティシティ(単義性)を実証しました。また、ニューロンやモデルパラメータの解釈可能性を越えた「状態の解釈可能性」は、BDHアーキテクチャの内在的特徴です。