Decart: Weltmodell für Fahren
Der KI-Startup Decart hat am Mittwoch mit Oasis 3 ein neues interaktives Weltmodell veröffentlicht, das photorealistische Fahrszenarien in Echtzeit simuliert. Das Modell ist ab sofort über eine API verfügbar und richtet sich primär an Entwickler von autonomen Fahrzeugen, um seltene Verkehrssituationen skalierbar zu testen. CEO und Mitgründer Dean Leitersdorf betont, dass Decart damit ein Entwickler-Ökosystem aufbauen wolle, ähnlich dem Vorgehen von OpenAI mit Sprachmodellen. Oasis 3 basiert auf dem früheren Videomodell Lucy und markiert den strategischen Einstieg in den Bereich Physical AI. Das System generiert mehrkanalige Umgebungen mit einer Front- und zwei Seitenkameras. Entscheidender Wettbewerbsvorteil ist der DOS-Optimierungsstack, der die Modelle hardwareseitig auf Nvidia-, Amazon- und Google-Infrastruktur effizient betreibt. Dadurch liegen die Betriebskosten über eine Größenordnung unter denen der Konkurrenz. Die API-Nutzung kostet 0,02 US-Dollar pro Sekunde, Unternehmenslizenzen werden fallbezogen kalkuliert. Der Markteintritt folgt auf eine Finanzierungsrunde in Höhe von 300 Millionen US-Dollar, die die Bewertung des Unternehmens auf nahezu vier Milliarden US-Dollar anhebt. Strategische Investoren sind Toyota, Adobe, eBay sowie der langjährige Partner Nvidia. Leitersdorf führt die Investition auf die steigende Nachfrage nach Echtzeit-Video-Modellen im E-Commerce, Live-Streaming und der Robotik zurück. Das Unternehmen gibt an, mit den bestehenden Modellen Lifetime-Kosten von deutlich unter 100 Millionen US-Dollar generiert zu haben. In der Konkurrenzlandschaft bewegen sich auch Google mit Genie 3, World Labs mit Marble sowie Video-Generierungsunternehmen wie Luma und Runway in dieses Feld. Oasis 3 überzeugt durch hohe Bildqualität aus einzelnen Text-Prompts und ermöglicht unendliche Interaktionszeiten. Technische Einschränkungen bleiben jedoch bestehen. Die autoregressive Architektur, die jeden Frame auf Basis der vorherigen Generationen berechnet, führt bei langen Simulationen zu einem schnellen Auffüllen des Kontextfensters. Dies resultiert in einer raschen Degradierung der szenischen Konsistenz: Umgebungen verlieren ihre ursprüngliche Identität, und die Fahrzeugsteuerung reagiert oft verzögert. Zudem fehlt es derzeit an objektbasierter Kollisionserkennung, wodurch Fahrzeuge andere Verkehrsteilnehmer durchdringen können. Leitersdorf stuft dies als aktives Forschungsproblem ein, das durch die asymmetrische Datenverfügbarkeit für normales Fahren versus Unfallszenarien verursacht wird. Das Entwicklungsteam arbeitet an einer Erweiterung des Kontextfensters und einer Kompression der Speicherdarstellung, um über Millionen von Tokens hinauszukommen. Die nächste Modellgeneration soll zudem die Generierung auf Basis von Videomaterial statt statischer Bilder ermöglichen. Trotz der aktuellen Limitationen sieht der Vorstand das Potenzial in der langfristigen Etablierung von Physical-AI-Anwendungen. Durch den sofortigen API-Zugang sollen Entwickler innerhalb weniger Monate neue Use-Cases identifizieren und implementieren, was den Branchenausbruch dieser Technologie beschleunigen könnte.
