Neues Video-Annotation-Modell ClipTagger-12b übertrifft Claude 4 und ist kostengünstig verfügbar
Grass und Inference.net haben ClipTagger-12b vorgestellt, ein neuartiges Video-Annotation-Modell, das in Benchmarktests Claude 4 und GPT-4.1 bei Metriken wie ROUGE und BLEU übertrifft. Das Modell wurde auf einer der weltweit größten Datensätze aus echten Videos trainiert – einem Subset von über einer Milliarde öffentlich verfügbaren Videos, die von Grass aus dem Web gesammelt wurden. Die Entwicklung erfolgte in enger Zusammenarbeit zwischen Grass und Inference.net, wobei Inference.net die Modelltrainingsinfrastruktur bereitstellte und das Modell auf seiner verteilten Compute-Plattform hostet. ClipTagger-12b erkennt mit hoher Genauigkeit Aktionen, Objekte und Logos in Videos und ist bereits über eine API nutzbar. Dabei verursacht es bis zu 17-mal geringere Kosten als vergleichbare Lösungen. Die Verfügbarkeit über Hugging Face und die Möglichkeit, bis zu 10.000 US-Dollar an Rechenkrediten über ein Förderprogramm zu erhalten, macht es auch für Forscher zugänglich. Das Modell unterstreicht, dass hochleistungsfähige AI-Systeme nicht nur in großen Laboren entstehen müssen, sondern auch durch spezialisierte Teams mit guter Datenqualität und effizienter Architektur realisiert werden können. Grass fungiert als Plattform, die Nutzer über eine App dazu einlädt, ihre ungenutzte Internetverbindung freizugeben, um eine globale Infrastruktur für die Datensammlung zu bilden. Inference.net dagegen bietet eine dezentrale Recheninfrastruktur, die es Entwicklern ermöglicht, Modelle skalierbar und kosteneffizient bereitzustellen, ohne auf zentrale Cloud-Anbieter angewiesen zu sein. Industrielle Anwendungen reichen von autonomen Fahrzeugen über Lagerroboter bis hin zu Content-Verarbeitung. Die Fähigkeit, Videos präzise zu annotieren, ist entscheidend für die Verbesserung der Wahrnehmungsfähigkeit von KI-Systemen. Experten sehen in der Kooperation zwischen Grass und Inference.net einen Meilenstein für die Democratization von KI: „Die Zukunft der KI hängt davon ab, dass wir das Web offen halten und die Infrastruktur schaffen, die es ermöglicht, aus öffentlichem Wissen zu lernen“, betont Andrej Radonjic von Wynd Labs. Sam Hogan, CEO von Inference.net, unterstreicht: „Mit der richtigen Datenbasis und guter Ingenieurskunst ist es möglich, state-of-the-art-Modelle kostengünstig zu trainieren.“ Die Einführung von ClipTagger-12b markiert einen Schritt hin zu einer dezentralen, kostengünstigen und zugänglichen KI-Entwicklung, die nicht mehr auf wenige Tech-Riesen beschränkt ist. Für Entwickler und Unternehmen bedeutet dies eine neue Möglichkeit, hochpräzise Videoanalyse in ihre Anwendungen zu integrieren – ohne hohe Einstiegskosten oder Abhängigkeit von zentralisierten Plattformen. Die Kombination aus realweltbezogenen Daten, dezentraler Infrastruktur und offener Zugänglichkeit könnte die Entwicklung von KI in vielen Bereichen beschleunigen und gleichzeitig die Transparenz und Nachvollziehbarkeit von Modellen verbessern.