HyperAI
Back to Headlines

Vergleich großer Sprachmodel-Architekturen: Was sich ändert und was nicht

vor 2 Tagen

Es ist bereits sieben Jahre her, seit die ursprüngliche GPT-Architektur entwickelt wurde. Ein Blick zurück auf GPT-2 (2019) und vorwärts zu DeepSeek-V3 und Llama 4 (2024-2025) könnte überraschen, wie strukturell ähnlich diese Modelle immer noch sind. Natürlich haben sich Positionsembeddings von absoluten zu rotatorischen (RoPE) entwickelt, und die Mehrfach-Kopf-Aufmerksamkeit (MHA) wurde weitgehend durch Gruppen-Abfrage-Aufmerksamkeit (GQA) ersetzt. Zudem hat die effizientere SwiGLU-Aktivierungsfunktion GELU ersetzt. Doch trotz dieser kleineren Verbesserungen bleibt die Frage, ob wir wirklich bahnbrechende Veränderungen gesehen haben oder einfach nur die gleichen architektonischen Grundlagen polieren. Die Vergleichbarkeit von LLMs hinsichtlich ihrer Leistung ist sehr herausfordernd, da Datensätze, Trainingsmethoden und Hyperparameter stark variieren und oft nicht gut dokumentiert sind. Dennoch bietet der Vergleich der architektonischen Veränderungen wertvolle Erkenntnisse über die Entwicklungen im Jahr 2025. DeepSeek-V3 und -R1 DeepSeek-R1, veröffentlicht im Januar 2025, erzielte großes Aufsehen. Es basiert auf der DeepSeek-V3-Architektur, die im Dezember 2024 eingeführt wurde. Zwei wesentliche architektonische Techniken in DeepSeek-V3 sind die Mehrfach-Kopf-Latente-Aufmerksamkeit (MLA) und die Mixture-of-Experts (MoE)-Schichten. Gruppen-Abfrage-Aufmerksamkeit (GQA) GQA ist eine effizientere Alternative zur MHA, bei der mehrere Köpfe die gleichen Schlüssel- und Wertprojektionen teilen, um den Speicherverbrauch zu reduzieren. Dies führt zu weniger Speicherbedarf und verbessert die Effizienz ohne nennenswerte Abstriche in der Modellleistung, wie Studien zeigen. Mehr-Kopf-Latente-Aufmerksamkeit (MLA) MLA komprimiert die Schlüssel- und Werte-Tensoren in einen niedrigdimensionalen Raum, bevor sie im KV-Cache gespeichert werden. Bei der Inferenz werden diese Tensoren wieder in ihren ursprünglichen Zustand projiziert. Obwohl dies eine zusätzliche Matrixmultiplikation erforderlich macht, reduziert es den Speicherverbrauch. DeepSeek-V3 und -V2 nutzen MLA, da es besser als GQA performt, wie ablationelle Studien zeigen. Mixture-of-Experts (MoE) MoE ersetzte in DeepSeek-V3 die traditionellen FeedForward-Schichten durch mehrere Expertenschichten. Dies erhöht die Gesamtzahl der Parameter, aber nur wenige Experten werden pro Token aktiviert, was die Inferenzeffizienz erhöht. DeepSeek-V3 hat 256 Experten pro MoE-Modul und insgesamt 671 Milliarden Parameter. Während der Inferenz werden jedoch nur 37 Milliarden Parameter verwendet. OLMo 2 Die OLMo-Reihe von der gemeinnützigen Allen Institute for AI ist bemerkenswert wegen ihrer Transparenz in Bezug auf Trainingsdaten, Code und technische Berichte. Obwohl OLMo-Modelle nicht an der Spitze der Benchmarks stehen, bieten sie eine gute Grundlage für die Entwicklung von LLMs dank ihrer Transparenz. Normalisierungsschichten OLMo 2 wechselte von LayerNorm zu RMSNorm und platzierte die Normalisierungsschichten nach den Aufmerksamkeits- und FeedForward-Schichten (Post-Norm). Dies verbessert die Trainingsstabilität. Zusätzlich verwendet OLMo 2 ein QK-Norm, das die Queries und Keys im Aufmerksamkeitsmodul normalisiert, bevor RoPE angewendet wird. Diese Kombination von Post-Norm und QK-Norm fördert die Stabilität des Trainingsverlustes. Gemma 3 Googles Gemma-Modelle sind bekannt für ihre hohe Qualität und wurden oft unterbewertet. Gemma 3 steht heraus durch seine große Vokabulargröße, die mehrere Sprachen besser unterstützt, und den Fokus auf das 27-Milliarden-Parameter-Modell. Gemma 3 nutzt eine sogenannte Gleitfenster-Aufmerksamkeit, um den Speicherverbrauch im KV-Cache zu reduzieren. Gleitfenster-Aufmerksamkeit Gleitfenster-Aufmerksamkeit beschränkt den Kontext um das aktuelle Query, um die Berechnungen lokaler und effizienter zu gestalten. Gemma 3 kombiniert globale und lokale Aufmerksamkeit in einem Verhältnis von 5:1, wobei die Größe des Gleitfensters von 4096 auf 1024 Tokens reduziert wurde. Dies hat kaum Auswirkungen auf die Modellleistung, wie ablationelle Studien zeigen. Normalisierungsschichten Gemma 3 verwendet RMSNorm sowohl in Pre-Norm- als auch in Post-Norm-Einstellungen. Dies gibt dem Modell die besten Eigenschaften beider Ansätze und verbessert die Trainingsstabilität. Qwen 3 Das Qwen-Team liefert regelmäßig hochwertige offene LLMs. Qwen 3 besteht aus sieben dichten Modellen und zwei MoE-Varianten (30B-A3B und 235B-A22B). Das 0.6-Milliarden-Parameter-Modell ist besonders bemerkenswert wegen seiner Effizienz und Leistung. Architektur Qwen 3 0.6B hat eine kleinere Architektur mit weniger Aufmerksamkeitsköpfen und kleineren versteckten Schichten, aber mehr Transformer-Blöcken. Dies führt zu einer langsameren Laufzeit, aber einem geringeren Speicherverbrauch. Die MoE-Varianten nutzen die gleichen Prinzipien, um die Inferenzkosten zu reduzieren, aber ohne den gemeinsamen Experten, den DeepSeek-V3 verwendet. SmolLM 3 SmolLM 3 ist weniger bekannt als die anderen Modelle, bietet aber ausgezeichnete Leistung bei einer moderaten Größe von 3 Milliarden Parametern. Eine bemerkenswerte Aspekt ist die Verwendung von NoPE (No Positional Embeddings). NoPE NoPE entfernt explizite Positionsinformationen, da das kausale Aufmerksamkeitsmaskieren immer noch die autoregressive Reihenfolge beibehält. Dies führte in Studien zu besseren Längengeneralisierungen, was bedeutet, dass die Modellleistung bei längeren Sequenzen weniger nachlässt. SmolLM 3 verwendet NoPE in jedem vierten Layer. Kimi 2 Kimi 2 erregte im AI-Community große Aufmerksamkeit wegen seiner hervorragenden Leistung, vergleichbar den besten proprietären Modellen wie Googles Gemini, Anthropics Claude und OpenAIs ChatGPT. Muon-Optimierer Kimi 2 nutzt den Muon-Optimierer, der eine glatte Trainingsverlustkurve ermöglicht. Dieses Modell hat eine Größe von 1 Billion Parametern und basiert auf der DeepSeek-V3-Architektur, ist aber größer, verwendet mehr Experten in MoE-Modulen und weniger Köpfe in MLA-Modulen. Bewertung und Zusammenfassung Innerhalb der LLM-Entwicklung im Jahr 2025 sind einige wichtige architektonische Trends erkennbar: die Verwendung von MLA, MoE, Gleitfenster-Aufmerksamkeit und NoPE. Diese Techniken zielen darauf ab, die Effizienz und Leistung der Modelle zu verbessern, ohne den Speicherverbrauch und die Rechenkosten zu explodieren. DeepSeek-V3 und Kimi 2 zeigten besonders beeindruckende Ergebnisse durch die Kombination dieser Ansätze. OLMo 2 und SmolLM 3 sind für ihre Transparenz und die spezifischen Normalisierungstechniken bemerkenswert, während Gemma 3 sich durch seine Gleitfenster-Aufmerksamkeit und flexiblen Normalisierungsschichten auszeichnet. Diese Magazine ist ein persönliches Projekt, das Ihre Unterstützung braucht, um weiterhin bestehen zu können. Wenn Sie möchten, können Sie auf verschiedenen Wegen beitragen. Vielen Dank für Ihr Interesse und Ihre Unterstützung!

Related Links