HyperAI

Transformers v5.0.0rc-0 markiert einen entscheidenden Meilenstein in der Entwicklung der führenden Open-Source-Bibliothek für maschinelles Lernen, die seit 2020 als zentrales Baustein der KI-Ökonomie gilt. In den vergangenen fünf Jahren hat die Bibliothek ihre Reichweite von 20.000 täglichen Installationen über pip auf über 3 Millionen pro Tag gesteigert – insgesamt wurden nun mehr als 1,2 Milliarden Instanzen gezählt. Die Modellarchitekturen sind von 40 auf über 400 angewachsen, und die Community hat mehr als 750.000 Modell-Checkpoints auf dem Hugging Face Hub bereitgestellt, gegenüber rund 1.000 bei v4. Dieser explosive Wachstum wird vor allem durch die zunehmende Verbreitung von KI und die Notwendigkeit standardisierter, leicht zugänglicher Modelldefinitionen getrieben. Das Kernziel von v5 ist die Vereinfachung und Verbesserung der Interoperabilität. Die Entwicklung konzentriert sich auf vier Säulen: Einfachheit, Training, Inference und Produktion. Ein zentraler Schritt ist die Modularisierung der Codebasis, die die Integration neuer Modelle erheblich beschleunigt und die Wartung vereinfacht. So wurde beispielsweise die AttentionInterface eingeführt, um unterschiedliche Aufmerksamkeitsmechanismen (wie FA, SDPA, FlexAttention) zentral zu verwalten, während der eigentliche Modellcode sauber und konzentriert bleibt. Gleichzeitig wird der Begriff „Fast“ und „Slow“ Tokenizer abgeschafft: künftig basiert die Tokenisierung ausschließlich auf dem tokenizers-Backend, wobei alternative Backends wie Sentencepiece oder MistralCommon optional verfügbar bleiben. Die Unterstützung für Flax und TensorFlow wird eingestellt, um den Fokus auf PyTorch zu legen – eine Entscheidung, die von der PyTorch Foundation und der Linux Foundation unterstützt wird. Im Bereich Training wurden erhebliche Fortschritte bei der Skalierung von Prätrainingsprozessen erzielt. Die Bibliothek ist nun kompatibel mit Werkzeugen wie torchtitan, megatron und nanotron und unterstützt optimierte Kerne für Forward- und Backward-Pässe. Auch Fine-Tuning und Post-Training werden durch verbesserte Interoperabilität mit Tools wie Unsloth, Axolotl, LlamaFactory und MaxText unterstützt. Für die Inference wurden neue APIs eingeführt, die parallele Inferenzanfragen effizienter gestalten, ohne selbst optimierte Engines wie vLLM oder SGLang zu ersetzen – vielmehr sollen diese nahtlos zusammenarbeiten. Ein weiterer Schwerpunkt ist die Integration in lokale und edge-basierte Systeme. Durch Partnerschaften mit ONNXRuntime, llama.cpp, MLX und executorch können Modelle nun einfach zwischen verschiedenen Plattformen hin- und herkonvertiert werden – beispielsweise GGUF-Dateien direkt in Transformers laden oder Transformers-Modelle in GGUF exportieren. Quantisierung wird nun als erstklassiger Bestandteil behandelt: v5 unterstützt 8-bit und 4-bit-Modelle wie gpt-oss oder Deepseek-r1 und ermöglicht eine zuverlässige Nutzung in Training und Inferenz. Zusammenarbeit mit TorchAO und bitsandbytes fördert die Unterstützung für TP, MoEs und neue Quantisierungsmethoden. Die gesamte Entwicklung dreht sich um Interoperabilität: v5 ermöglicht einen nahtlosen Workflow von der Modellentwicklung über das Training bis hin zur lokalen Ausführung. Dies ist nicht nur eine technische Verbesserung, sondern ein Signal für die Zukunft der offenen KI-Entwicklung. Industrieexperten loben die Initiative als Schlüssel zur Beschleunigung der KI-Innovation. „Transformers ist das Rückgrat der modernen KI-Ökonomie“, sagt Georgi Gerganov von ggml-org. „Ohne diese Bibliothek wäre die Entwicklung von Modellen wie llama.cpp oder MLX deutlich komplexer.“ Die Zusammenarbeit mit vLLM, SGLang und anderen Engine-Entwicklern zeigt, dass v5 nicht nur ein Update, sondern ein fundamentaler Schritt in Richtung einer standardisierten, offenen und effizienten KI-Infrastruktur ist. Mit v5 liegt nun eine klare, wartbare und skalierbare Basis vor, auf der die gesamte KI-Community aufbauen kann.

Verwandte Links

Verwandte Links

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Command Palette

Transformers v5: Einfachheit, Interoperabilität und Quantisierung im Fokus

Verwandte Links

Command Palette

Transformers v5: Einfachheit, Interoperabilität und Quantisierung im Fokus

Verwandte Links

Command Palette

Transformers v5: Einfachheit, Interoperabilität und Quantisierung im Fokus

Verwandte Links

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.

Wenn Multimodales Rechnen an Bedeutung Gewinnt: MiniCPM-o-4.5 Deckt Mit Nur 9 Bytes Echtzeit-Bildverständnis Und Textgenerierung Ab; vLLM Omni Unterstützt Gleichzeitig Hochdurchsatz-Bereitstellung Und Serviceorientierte Architektur Sowohl Für Text- Als Auch Für Multimodale Modelle.