HyperAI
Back to Headlines

Alibaba Qwen3-235B schlägt Kimi-2 und bietet FP8-Version

vor 3 Tagen

Chinesischer E-Commerce-Riese Alibaba macht weltweit Wellen in der Tech- und Geschäftswelt mit seiner Familie von generativen KI-Sprachmodellen „Qwen“. Der Start begann im April 2023 mit dem Original-Tongyi Qianwen LLM-Chatbot und setzte sich bis zur Veröffentlichung von Qwen 3 im April 2025 fort. Was macht diese Modelle so besonders? Ihre Modelle sind nicht nur leistungsstark und erzielen hohe Punktzahlen bei Drittanbieter-Benchmark-Tests in Bereichen wie Mathematik, Wissenschaft, Logik und Schreibaufgaben, sondern werden auch größtenteils unter permissiven Open-Source-Lizenzbedingungen freigegeben. Organisationen und Unternehmen können sie herunterladen, anpassen, ausführen und für eine Vielzahl von Zwecken verwenden, einschließlich kommerzieller Anwendungen. Man könnte sie als Alternative zu DeepSeek betrachten. Diese Woche hat Alibaba sein „Qwen Team“, die Abteilung für KI, die neuesten Updates für seine Qwen-Familie veröffentlicht. Diese haben bereits erneut die Aufmerksamkeit von KI-Power-Usern im Westen durch ihre Top-Leistung auf sich gezogen, insbesondere bei einem Vergleich mit dem neuen Kimi-2-Modell, das vom chinesischen KI-Startup Moonshot Mitte Juli 2025 veröffentlicht wurde. Das neue Qwen3-235B-A22B-2507-Instruct-Modell, das zusammen mit einer „floating point 8“ oder FP8-Version auf der KI-Code-Teilergemeinschaft Hugging Face veröffentlicht wurde, verbessert sich im Vergleich zum ursprünglichen Qwen 3 in den Bereichen Logik, Faktengenauigkeit und mehrsprachiges Verständnis. Es übertrifft auch Claudes Opus 4 „Non-Thinking“-Version. Die neuen Qwen3-Modelle bieten zudem bessere Codierungsergebnisse, Übereinstimmung mit Benutzervorlieben und die Fähigkeit, längere Kontexte zu verarbeiten, wie die Entwickler berichten. Doch das ist noch nicht alles. FP8-Version ermöglicht effizientere Betriebsweise Neben dem neuen Qwen3-235B-A22B-2507-Modell veröffentlichte das Qwen-Team eine FP8-Version, was für 8-Bit-Floating-Point steht. Dieses Format komprimiert die numerischen Operationen des Modells, um weniger Speicher- und Rechenleistung zu benötigen – ohne merklich seine Leistung zu beeinträchtigen. In der Praxis bedeutet dies, dass Organisationen ein Modell mit den Fähigkeiten des Qwen3 auf kleineren, weniger teuren Hardware oder effizienter in der Cloud betreiben können. Das Ergebnis sind schnellere Antwortzeiten, geringere Energiekosten und die Möglichkeit, Bereitstellungen zu skalieren, ohne riesige Infrastrukturen zu benötigen. Dies macht die FP8-Version besonders attraktiv für Produktionsumgebungen mit engen Latenz- oder Kostenrahmen. Teams können die Fähigkeiten des Qwen3 auf Einzelknoten-GPU-Instanzen oder lokalen Entwicklungsmaschinen skalieren, sodass massive Mehr-GPU-Cluster vermieden werden können. Es senkt auch die Barriere für private Feinabstimmungen und lokale Bereitstellungen, wo Infrastrukturressourcen begrenzt sind und die Gesamtkosten relevant sind. Obwohl das Qwen-Team keine offiziellen Berechnungen veröffentlicht hat, deuten Vergleiche mit ähnlichen FP8-Quantisierten Bereitstellungen darauf hin, dass die Effizienzgewinne erheblich sind. Hier ein praktisches Beispiel: | Metrik | FP16-Version (Instruct) | FP8-Version (Instruct-FP8) | |--------------------------|------------------------|---------------------------| | GPU-Speicherverbrauch | ca. 88 GB | ca. 30 GB | | Inferenzgeschwindigkeit | ca. 30–40 Tokens/Sek. | ca. 60–70 Tokens/Sek. | | Energieverbrauch | hoch | ca. 30–50% niedriger | | Anzahl benötigter GPUs | 8 × A100 oder ähnlich | 4 × A100 oder weniger | Diese Schätzungen basieren auf Branche-standards für FP8-Bereitstellungen. Die tatsächlichen Ergebnisse können je nach Batch-Größe, Prompt-Länge und Inferenz-Rahmen (z.B. vLLM, Transformers, SGLang) variieren. Keine „hybride Logik“ mehr, stattdessen getrennte Logik- und Instruct-Modelle Vielleicht am interessantesten ist, dass das Qwen-Team angekündigt hat, den „hybriden Logikansatz“ aufzugeben, den es mit Qwen 3 im April eingeführt hat. Dieser Ansatz war inspiriert durch einen Weg, den das souveräne KI-Kollektiv Nous Research beschritten hatte. Der „hybride Logikansatz“ erlaubte es Benutzern, ein „Logik-Modell“ zu aktivieren, das die KI-Modelle in einem Selbstkontrollprozess durchgehen und „Denkchains“ produzieren ließ, bevor sie antworteten. Dies sollte die Logikfähigkeiten mächtiger proprietärer Modelle wie OpenAIs „o“-Reihe (o1, o3, o4-mini, o4-mini-high) nachahmen, die ebenfalls „Denkchains“ erzeugen. Im Gegensatz zu diesen Konkurrenzmodellen, die immer in einem „Logik“-Modus arbeiten, konnte der Modus von Qwen 3 von den Benutzern manuell an- oder abgeschaltet werden, indem sie auf einen „Denkmodus“-Button auf der Qwen-Website klickten oder vor ihrem Prompt „/think“ tippten, wenn sie das Modell lokal oder privat ausführten. Das Ziel war es, den langsameren und ressourcenintensiveren Denkmodus für schwierigere Prompts und Aufgaben zu verwenden und den Nicht-Denkmodus für einfache Prompts. Dies setzte jedoch den Benutzern eine Entscheidungsbürde zu und führte in einigen Fällen zu designtechnischer Komplexität und unkonsequtem Verhalten. Nun hat das Qwen-Team in seinem Ankündigungsbeitrag auf X erklärt: „Nach Gesprächen mit der Community und gründlichem Nachdenken haben wir uns entschieden, den hybriden Denkmodus nicht mehr zu verwenden. Stattdessen trainieren wir getrennte Instruct- und Denkmodelle, um die beste Qualität zu erreichen.“ Mit dem Update 2507 – ein reines Instruct-Modell ohne Logikfunktion – schiebt Alibaba nicht länger beide Ansätze in einem einzigen Modell zusammen. Stattdessen werden getrennte Modellvarianten für Instruct- und Logikaufgaben trainiert. Das Resultat ist ein Modell, das sich enger an Benutzeranweisungen hält, präzisere Antworten generiert und, wie Benchmark-Daten zeigen, erheblich in mehreren Evaluationsdomänen verbessert. Leistungsbenchmark und Einsatzfälle Im Vergleich zu seinen Vorgängern liefert das Qwen3-235B-A22B-Instruct-2507-Modell messbare Verbesserungen. Das Modell behält eine Mixture-of-Experts (MoE)-Architektur bei, bei der während der Inferenz 8 von 128 Experten aktiviert werden, wobei insgesamt 235 Milliarden Parameter vorhanden sind, davon 22 Milliarden zu jedem Zeitpunkt aktiv sind. Wie bereits erwähnt, führt die FP8-Version durch feinkörnige Quantisierung zu besserer Inferenzgeschwindigkeit und reduziertem Speicherverbrauch. Das Modell ist von Haus aus für Unternehmensnutzung konzipiert. Im Gegensatz zu vielen Open-Source-LLMs, die oft unter restriktiven Forschungs- oder kommerziellen API-Zugangsbedingungen freigegeben werden, zielt Qwen3 direkt auf Unternehmensbereitstellungen ab. Dank der permissiven Apache 2.0-Lizenz können Unternehmen das Modell frei für kommerzielle Anwendungen nutzen. Sie können auch: 1-Klick-Bereitstellung auf Azure ML Lokale Nutzung über MLX auf Mac oder INT4-Builds von Intel Benchmarks wie TAU-Retail und BFCL-v3 deuten darauf hin, dass das Instruct-Modell kompetent mehrstufige Entscheidungen treffen kann – ein Bereich, der normalerweise für speziell darauf ausgerichtete Agenten reserviert ist. Die Reaktionen der Community und der Branche waren überwiegend positiv. Paul Couvert, KI-Ausbilder und Gründer des privaten LLM-Chatbot-Hosts Blue Shell AI, postete ein Vergleichsdiagramm auf X, das zeigt, wie Qwen3-235B-A22B-Instruct-2507 auf Benchmarks wie GPQA, AIME25 und Arena-Hard v2 besser abschneidet als Claude Opus 4 und Kimi K2. Er nannte es „noch leistungsfähiger als Kimi K2 … und sogar besser als Claude Opus 4“. Der KI-Influencer NIK (@ns123abc) kommentierte dessen schnellen Einfluss: „Du lachst. Qwen-3-235B hat Kimi K2 innerhalb einer Woche irrelevant gemacht, obwohl es nur ein Viertel der Größe hat, und du lachst.“ Jeff Boudier, Head of Product bei Hugging Face, hob die Bereitstellungs benefits hervor: „Qwen hat stillschweigend eine enorme Verbesserung von Qwen3 freigegeben … es ist sowohl den besten Open-Source- (Kimi K2, ein Modell, das viermal größer ist) als auch den geschlossenen LLMs (Claude Opus 4) auf Benchmarks überlegen.“ Er lobte die Verfügbarkeit eines FP8-Checkpoints für schnellere Inferenz, die 1-Klick-Bereitstellung auf Azure ML und die Unterstützung für lokale Nutzung über MLX auf Mac oder INT4-Builds von Intel. Das gesamte Feedback von Entwicklern war enthusiastisch, da das Modell ein ausgeglichenes Verhältnis von Leistung, Lizenzierung und Bereitstellbarkeit bietet, das sowohl Hobbyisten als auch Profis anspricht. Was kommt als Nächstes für das Qwen-Team? Alibaba legt bereits die Grundlagen für zukünftige Updates. Ein separates, logikzentriertes Modell ist in Planung, und das Qwen-Roadmap deutet auf zunehmend agentenzentrierte Systeme hin, die langfristige Aufgabenplanung ermöglichen. Multimodale Unterstützung, die in Qwen2.5-Omni und Qwen-VL-Modellen sichtbar war, wird ebenfalls weiter ausgebaut. Es gibt bereits Gerüchte und Spekulationen, da Qwen-Team-Mitglieder weitere Updates auf ihren Webseiten andeuten. URL-Strings für ein neues Qwen3-Coder-480B-A35B-Instruct-Modell wurden entdeckt, das wahrscheinlich ein 480-Milliarden-Parameter-Mixture-of-Experts (MoE) mit einem Token-Kontext von 1 Million sein wird. Was Qwen3-235B-A22B-Instruct-2507 letztendlich signalisiert, ist nicht nur ein weiterer Sprung in den Benchmark-Leistungen, sondern auch die Reife von Open-Source-Modellen als zwingende Alternativen zu proprietären Systemen. Die Flexibilität der Bereitstellung, die starke allgemeine Leistung und die unternehmensfreundliche Lizenzierung verleihen dem Modell einen einzigartigen Vorteil in einem wettbewerbsintensiven Markt. Für Teams, die fortschrittliche Anweisungsfähige Modelle in ihr KI-Stack integrieren möchten – ohne die Einschränkungen von Vendor-Lock-In oder nutzungsabhängigen Gebühren – ist Qwen3 ein ernst zu nehmender Anwärter.

Related Links