vor 2 Tagen

SmallThinker: Eine Familie effizienter großer Sprachmodelle, die natively für die lokale Bereitstellung trainiert wurden

Yixin Song, Zhenliang Xue, Dongliang Wei, Feiyang Chen, Jianxiang Gao, Junchen Liu, Hangyu Liang, Guangshuo Qin, Chengrong Tian, Bo Wen, Longyu Zhao, Xinrui Zheng, Zeyu Mi, Haibo Chen

Details der Forschungsarbeit anzeigen

SmallThinker: Eine Familie effizienter großer Sprachmodelle, die natively für die lokale Bereitstellung trainiert wurden

Abstract

Obwohl vordergruppenrelevante große Sprachmodelle (LLMs) weiterhin die Grenzen ihrer Fähigkeiten erweitern, bleibt ihre Implementierung auf Cloud-Infrastruktur mit GPU-Beschleunigung beschränkt. Wir stellen dieses Paradigma mit SmallThinker in Frage, einer Familie von LLMs, die ursprünglich – nicht angepasst – für die spezifischen Anforderungen lokaler Geräte konzipiert wurden: schwache Rechenleistung, begrenzter Speicher und langsames Speichermedium. Im Gegensatz zu traditionellen Ansätzen, die sich hauptsächlich auf die Kompression bereits für Cloud-Umgebungen entwickelter Modelle konzentrieren, haben wir SmallThinker von Grund auf entworfen, um innerhalb dieser Grenzen optimal zu funktionieren. Unsere Innovation besteht in einer architektonischen Gestaltung, die den Einsatz im Deployment berücksichtigt und dadurch die Einschränkungen in Entwurfsprinzipien umwandelt. Zunächst führen wir eine zweistufige spärliche Struktur ein, die feinkörnige Mixture-of-Experts (MoE) mit spärlichen Feed-Forward-Netzwerken kombiniert und somit die Rechenanforderungen stark reduziert, ohne die Modellkapazität einzubüßen. Zweitens überwinden wir die I/O-Begrenzung durch langsames Speichermedium, indem wir einen prä-Attention-Router entwerfen, der es unserem koentworfenen Inferenz-Engine ermöglicht, Experten-Parameter während der Berechnung der Attention-Mechanik aus dem Speicher vorzuladen. Dies versteckt effektiv die Speicherlatenz, die ansonsten die Inferenz auf dem Gerät stark beeinträchtigen würde. Drittens zur Verbesserung der Speichereffizienz nutzen wir eine hybride spärliche Attention-Mechanismus (NoPE-RoPE), der die Anforderungen an den KV-Cache stark reduziert. Wir veröffentlichen SmallThinker-4B-A0.6B und SmallThinker-21B-A3B, die führende Leistungsergebnisse erzielen und sogar größere LLMs übertreffen. Erstaunlicherweise entfällt mit unserem koentworfenen System fast die Notwendigkeit teurer GPU-Hardware: mit Q4_0-Quantisierung erreichen beide Modelle mehr als 20 Tokens pro Sekunde auf gewöhnlichen Consumer-CPU-Systemen und verbrauchen jeweils nur 1 GB und 8 GB Speicher. SmallThinker ist öffentlich zugänglich unter hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct und hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.