概要

前線の大規模言語モデル（LLM）が能力の境界を引き続き拡大している一方で、その導入はGPUを搭載したクラウドインフラに限定されている。私たちはSmallThinkerという、ローカルデバイスの独自の制約——弱い計算能力、限られたメモリ、遅いストレージ——に本質的に設計されたLLMのファミリによって、この常識を挑戦する。従来のアプローチとは異なり、SmallThinkerはクラウド向けに設計された既存モデルを圧縮して構築するのではなく、これらの制約の中で機能するように从頭設計されている。我々の革新は、制約を設計原則として転換する「デプロイメントに配慮したアーキテクチャ」にあり、その具体例は以下の通りである。第一に、細粒度のMixture-of-Experts（MoE）とスパースなフィードフォワードネットワークを組み合わせた2段階のスパース構造を導入し、モデルの能力を損なうことなく計算要求を大幅に削減する。第二に、遅いストレージのI/Oボトルネックに対処するため、事前アテンションルーティング機構を設計し、アテンション計算中にエキスパートパラメータをプリフェッチ可能にすることで、デバイス内での推論にかかるストレージ遅延を効果的に隠蔽する。第三に、メモリ効率を向上させるために、NoPE-RoPEハイブリッドスパースアテンションメカニズムを採用し、KVキャッシュの必要量を削減する。私たちはSmallThinker-4B-A0.6BおよびSmallThinker-21B-A3Bをリリースし、これらのモデルは最先端の性能を達成し、さらに大規模LLMを上回る性能を示している。注目すべきは、私たちは共同設計されたシステムにより、高価なGPUハードウェアの必要性を大部分排除した点である。Q4_0量子化を用いることで、両モデルとも通常のコンシューマーCPUで1秒間に20トークン以上の処理が可能であり、それぞれ1GBおよび8GBのメモリを消費する。SmallThinkerは、hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct および hf.co/PowerInfer/SmallThinker-21BA3B-Instruct で公開されている。

ソースPDF