HyperAIHyperAI

Command Palette

Search for a command to run...

SmallThinker: Eine Familie effizienter großer Sprachmodelle, die natively für die lokale Bereitstellung trainiert wurden

Zusammenfassung

Obwohl vordergruppenrelevante große Sprachmodelle (LLMs) weiterhin die Grenzen ihrer Fähigkeiten erweitern, bleibt ihre Implementierung auf Cloud-Infrastruktur mit GPU-Beschleunigung beschränkt. Wir stellen dieses Paradigma mit SmallThinker in Frage, einer Familie von LLMs, die ursprünglich – nicht angepasst – für die spezifischen Anforderungen lokaler Geräte konzipiert wurden: schwache Rechenleistung, begrenzter Speicher und langsames Speichermedium. Im Gegensatz zu traditionellen Ansätzen, die sich hauptsächlich auf die Kompression bereits für Cloud-Umgebungen entwickelter Modelle konzentrieren, haben wir SmallThinker von Grund auf entworfen, um innerhalb dieser Grenzen optimal zu funktionieren. Unsere Innovation besteht in einer architektonischen Gestaltung, die den Einsatz im Deployment berücksichtigt und dadurch die Einschränkungen in Entwurfsprinzipien umwandelt. Zunächst führen wir eine zweistufige spärliche Struktur ein, die feinkörnige Mixture-of-Experts (MoE) mit spärlichen Feed-Forward-Netzwerken kombiniert und somit die Rechenanforderungen stark reduziert, ohne die Modellkapazität einzubüßen. Zweitens überwinden wir die I/O-Begrenzung durch langsames Speichermedium, indem wir einen prä-Attention-Router entwerfen, der es unserem koentworfenen Inferenz-Engine ermöglicht, Experten-Parameter während der Berechnung der Attention-Mechanik aus dem Speicher vorzuladen. Dies versteckt effektiv die Speicherlatenz, die ansonsten die Inferenz auf dem Gerät stark beeinträchtigen würde. Drittens zur Verbesserung der Speichereffizienz nutzen wir eine hybride spärliche Attention-Mechanismus (NoPE-RoPE), der die Anforderungen an den KV-Cache stark reduziert. Wir veröffentlichen SmallThinker-4B-A0.6B und SmallThinker-21B-A3B, die führende Leistungsergebnisse erzielen und sogar größere LLMs übertreffen. Erstaunlicherweise entfällt mit unserem koentworfenen System fast die Notwendigkeit teurer GPU-Hardware: mit Q4_0-Quantisierung erreichen beide Modelle mehr als 20 Tokens pro Sekunde auf gewöhnlichen Consumer-CPU-Systemen und verbrauchen jeweils nur 1 GB und 8 GB Speicher. SmallThinker ist öffentlich zugänglich unter hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct und hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp