HyperAI

Am 16. Februar 2026 veröffentlichte Alibaba’s Qwen-Team die nächste Generation ihres Foundational Models: Qwen3.5–397B-A17B, eine 397-Milliarden-Parameter-Mixture-of-Experts-Model mit nur 17 Milliarden aktiven Parametern pro Token. Die API-Version, Qwen3.5-Plus, verfügt über einen 1-Mio.-Token-Context, integrierte Tools und adaptive Werkzeugnutzung. Kerninnovation ist die hybride Aufmerksamkeitsarchitektur: Im Wechsel zwischen Gated DeltaNet-Layern (lineare Aufmerksamkeit) und voller Aufmerksamkeit in einem Verhältnis von 3:1 nutzt das Modell lineare Skalierung für längere Kontexte, wodurch Effizienz und Stabilität steigen. Diese Architektur basiert auf der Kombination von Mamba2s Gated-Decay-Mechanismus und einem Delta-Regel-Ansatz, der Aufmerksamkeits-Sinks reduziert. Zudem wurde das Modell mit skalierbarem Reinforcement Learning in millionenfachen Agenten-Umgebungen trainiert, was auf robuste Anpassungsfähigkeit im realen Einsatz hindeutet. Qwen3.5 ist natively multimodal – Vision und Sprache werden bereits in der Trainingsschicht integriert, was bessere Leistung in visuellen Aufgaben ermöglicht (z. B. 85,0 auf MMMU, 90,8 auf OmniDocBench). Die Sprachunterstützung wurde von 119 auf 201 Sprachen und Dialekte erweitert, die breiteste unter Open-Source-Modellen. In Benchmarks zeigt sich ein ausgewogenes Profil: In Mathematik erreicht es 91,3 (AIME 2026) und 94,8 (HMMT), liegt aber hinter GPT-5.2 und Claude. In Instruction Following dominiert es dagegen: 76,5 auf IFBench (besser als GPT-5.2 und Claude), 67,6 auf MultiChallenge. In agentenbasierten Aufgaben liegt es mit 86,7 auf Tau2-Bench knapp hinter Claude, bei MCPMark mit 46,1 hinter GPT-5.2. Auf BrowseComp zeigt es einen deutlichen Unterschied je nach Strategie: 69,0 mit einfacher Context-Folding, 78,6 mit „discard-all“-Strategie – ein Hinweis darauf, dass agentenbasierte Scores stark von der Umgebung und dem Kontextmanagement abhängen. In Coding liegt es mit 76,4 auf SWE-bench Verified knapp hinter GPT-5.2 und Claude, aber bei SecCodeBench mit 68,3 gleichauf. Die Aufmerksamkeitsarchitektur ist nun der neue Wettkampfplatz: Während Qwen3.5 und Kimi K2.5 beide ein 3:1-Hybridmodell nutzen, unterscheiden sich die Implementierungen (z. B. scalar vs. channel-wise Gating, MLA-Integration). MiniMax setzt auf vollständig lineare Attention, GLM-5 auf Sparse Attention mit DeepSeek-Techniken. Qwen3.5 ist damit ein konsistenter Schritt in Richtung effizienter, skalierbarer und agentenorientierter Architekturen. Bewertung & Ausblick: Industrieexperten sehen in Qwen3.5 einen Meilenstein der Effizienz und Integration: „Die hybride Aufmerksamkeit ist kein Trend mehr, sondern die neue Norm“, sagt ein Forscher bei einem chinesischen AI-Startup. Die Fokussierung auf agentezentrierte Benchmarks zeigt, dass die Branche sich von Chatbot-Metriken verabschiedet. Qwen3.5 ist kein Spitzenreiter in einer Kategorie, aber das ausgewogenste Modell der Reihe – besonders in Anweisungsfollowing und Multimodalität. Die Tatsache, dass nur eine Größe initial verfügbar ist, deutet auf eine breite Produktreihe hin. Die Architektur könnte künftig auch in kleineren Versionen Einzug halten. Qwen3.5 markiert nicht nur technologische Fortschritte, sondern auch eine Verschiebung der Bewertungsstandards im AI-Ökosystem.

Verwandte Links

Verwandte Links

Verwandte Links

Online-Tutorial | Komprimieren Sie Ein 27 Byte Großes Modell Auf 7,2 GB! Ternary-Bonsai Nutzt „ternäre Magie“, Um Große Modelle Auf PCs Lauffähig Zu machen.

Online-Tutorial | Komprimieren Sie Ein 27 Byte Großes Modell Auf 7,2 GB! Ternary-Bonsai Nutzt „ternäre Magie“, Um Große Modelle Auf PCs Lauffähig Zu machen.

Command Palette

Qwen3.5: Hybrid-Attention-Modell mit Spitzenleistung in Anweisungsfolge

Verwandte Links

Command Palette

Qwen3.5: Hybrid-Attention-Modell mit Spitzenleistung in Anweisungsfolge

Verwandte Links

Command Palette

Qwen3.5: Hybrid-Attention-Modell mit Spitzenleistung in Anweisungsfolge

Verwandte Links

Online-Tutorial | Komprimieren Sie Ein 27 Byte Großes Modell Auf 7,2 GB! Ternary-Bonsai Nutzt „ternäre Magie“, Um Große Modelle Auf PCs Lauffähig Zu machen.

Online-Tutorial | Komprimieren Sie Ein 27 Byte Großes Modell Auf 7,2 GB! Ternary-Bonsai Nutzt „ternäre Magie“, Um Große Modelle Auf PCs Lauffähig Zu machen.