Microsoft stellt drei neue KI-Modelle vor
Microsoft hat seine strategische Position im KI-Markt mit der Vorstellung dreier neuer grundlegender Modelle weiter ausgebaut. Das Forschungsunternehmen Microsoft AI kündigte diese Modelle an, die Texte, Sprachaufnahmen und Bilder generieren können. Dies unterstreicht das Bestreben des Technologiegiganten, eine eigene Infrastruktur für Multimodal-AI aufzubauen und gleichzeitig im Wettbewerb mit anderen großen KI-Laboren zu bestehen, obwohl eine enge Partnerschaft mit OpenAI weiterhin besteht. Zu den neuen Modellen gehört MAI-Transcribe-1, eine Sprach-zu-Text-Technologie, die Spracht in 25 verschiedenen Sprachen transkribiert. Laut Unternehmensangaben ist dieses Modell 2,5-mal schneller als das bisherige Angebot von Azure Fast. Das zweite Modell, MAI-Voice-1, ist ein Audio-generierender Dienst. Es ermöglicht die Erzeugung von 60 Sekunden Audioinhalt pro Sekunde und bietet Nutzern die Möglichkeit, eigene Stimmen zu kreieren. Das dritte Modell, MAI-Image-2, dient der Generierung von Videos. Ursprünglich wurde MAI-Image-2 am 19. März über MAI Playground, eine neue Testumgebung für Large Language Models, eingeführt. Nun stehen alle drei Modelle über Microsoft Foundry zur Verfügung, wobei Transkriptions- und Sprachmodelle zudem auf MAI Playground nutzbar sind. Die Entwicklung dieser Systeme oblag dem MAI Superintelligence Team, einer KI-Forschungsgruppe, die unter der Leitung von Microsoft-AI-Chef Mustafa Suleyman im November 2025 gegründet wurde. Suleyman betonte in einer Veröffentlichung die Philosophie des Unternehmens, menschzentrierte KI zu schaffen, die sich an der tatsächlichen Kommunikation orientiert und auf praktische Anwendungen trainiert ist. Er kündigte an, dass künftig weitere Modelle in Foundry und direkt in Microsoft-Produkten erscheinen werden. In einem zunehmend gesättigten Markt für Sprachmodelle setzt Microsoft gezielt auf Kostenvorteile gegenüber Konkurrenten wie Google und OpenAI. Die Preiskalkulation ist wie folgt: MAI-Transcribe-1 startet bei 0,36 US-Dollar pro Stunde, MAI-Voice-1 bei 22 US-Dollar pro Million gegebener Zeichen und MAI-Image-2 bei 5 US-Dollar pro Million Tokens für Texteingaben sowie 33 US-Dollar pro Million Tokens für die Bildausgabe. Trotz der Eigenentwicklung bekräftigte Suleyman erneut das Engagement für die Partnerschaft mit OpenAI. Eine kürzlich neu verhandelte Vereinbarung habe Microsoft jedoch mehr Freiheit eingeräumt, eigene Superintelligence-Forschungen voranzutreiben. Microsoft hat bereits mehr als 13 Milliarden US-Dollar in das KI-Forschungslabor investiert. Die Modelle werden über eine langjährige Partnerschaft in verschiedenen Produkten gehostet. Diese Dual-Strategie, eigene Entwicklung parallel zum Bezug externer Lösungen zu pflegen, spiegelt sich auch im Chipbereich wider, wo Microsoft sowohl eigene Chips produziert als auch von externen Herstellern bezieht.
