Ex-Googler gründen Startup, um Unternehmensvideo-Daten nutzbar zu machen
Unternehmen generieren heute mehr Videoinhalte als je zuvor – von jahrzehntelangen Fernseharchiven über Tausende von Überwachungskameras bis hin zu unzähligen Stunden Produktionsmaterial. Doch die meisten dieser Daten bleiben ungenutzt, unangeklickt und unanalysiert. Diese sogenannte „Dark Data“ stellt eine riesige, ungenutzte Ressource dar, die Unternehmen automatisch sammeln, aber kaum in Entscheidungsprozesse einbeziehen. Um dieses Problem anzugehen, haben Aza Kai (CEO) und Hiraku Yanagita (COO), zwei ehemalige Googler, die fast zehn Jahre gemeinsam in Google Japan arbeiteten, 2024 die Tokyo-basierte Startup-InfiniMind gegründet. Das Unternehmen entwickelt Infrastruktur, die Petabytes an ungenutzten Videos und Audiodaten in strukturierte, abfragbare Geschäftsdaten umwandelt. Kai, der in verschiedenen Bereichen bei Google Japan tätig war – von Cloud- und Machine-Learning-Systemen bis zu Werbe- und Videoempfehlungsalgorithmen – erkannte, dass bestehende Lösungen eine grundlegende Kompromisslage aufweisen: Sie konnten Objekte in einzelnen Bildern erkennen, aber nicht narrative Zusammenhänge, Kausalitäten oder komplexe Fragen über Inhalte beantworten. Besonders für Unternehmen mit Jahrzehnten an Archivmaterial war dies ein gravierender Limitierer. Die entscheidende Wende kam zwischen 2021 und 2023, als Vision-Language-Modelle erstmals über einfache Objekterkennung hinausgingen. Parallel dazu sanken GPU-Kosten, und die Leistungsentwicklung stieg jährlich um 15 bis 20 Prozent – doch der entscheidende Faktor war die gestiegene Funktionalität der Modelle, die bis dahin einfach nicht ausreichten. InfiniMind sicherte kürzlich 5,8 Millionen US-Dollar in einer Seed-Runde, angeführt von UTEC, mit Beteiligung von CX2, Headline Asia, Chiba Dojo und einem AI-Forscher von a16z Scout. Das Unternehmen verlegt seinen Hauptsitz in die USA, behält aber ein Büro in Japan – dort, wo die Technologie unter anspruchsvollen Kunden getestet und verfeinert wurde. Der erste Produktlaunch, TV Pulse, ging Anfang April 2025 in Japan live. Die AI-gestützte Plattform analysiert Fernsehinhalt in Echtzeit und hilft Medien- und Einzelhandelsunternehmen, Produktpräsenz, Markenpräsenz, Kundenstimmung und PR-Effekte zu messen. Bereits nach Piloten mit großen Sendern und Agenturen hat das Unternehmen zahlreiche zahlende Kunden, darunter Großhändler und Medienhäuser. Im März 2026 folgt die Beta von DeepFrame, der Hauptplattform für langformige Videointelligenz, die bis zu 200 Stunden Inhalt verarbeiten kann, um spezifische Szenen, Sprecher oder Ereignisse zu lokalisieren. Die Plattform arbeitet ohne Code, integriert Audio, Sprache und Klang, verarbeitet nahezu unbegrenzte Videolängen und setzt sich durch Kosteneffizienz von Konkurrenten ab, die oft nur auf Genauigkeit oder spezifische Anwendungsfälle fokussiert sind. Die Mittel sollen für die Weiterentwicklung des DeepFrame-Modells, den Ausbau der Infrastruktur, den Recruiting von mehr Ingenieuren und die Expansion in Japan und die USA genutzt werden. „Dies ist ein spannender Bereich, einer der Wege hin zu AGI“, sagt Kai. „Verständnis von allgemeiner Videointelligenz bedeutet Verständnis der Realität. Industrielle Anwendungen sind wichtig, aber unser ultimate Ziel ist es, die Grenzen der Technologie zu erweitern, um Menschen besser zu helfen, fundierte Entscheidungen zu treffen.“ In der Branche ist die Videoanalyse stark fragmentiert: Während Unternehmen wie TwelveLabs allgemeine APIs für Verbraucher und Unternehmen anbieten, konzentriert sich InfiniMind ausschließlich auf unternehmenskritische Anwendungsfälle wie Sicherheit, Überwachung und tiefgehende Content-Analyse. Mit seinem fokussierten Ansatz und einer Kombination aus Kosteneffizienz, Skalierbarkeit und multimodaler Analyse positioniert sich das Startup als ernstzunehmender Akteur im globalen Markt für intelligente Video-Infrastruktur.
