Ex-Googlers lancent une plateforme d’intelligence vidéo pour transformer les données brutes en décisions business
Depuis l’essor massif de la production vidéo, les entreprises accumulent des pétaoctets de données non exploitées : archives télévisuelles, vidéos de surveillance, contenus de tournage, etc. Ces données, souvent appelées « données obscures », restent inaccessibles et inutilisées, malgré leur potentiel stratégique. Pour transformer ce gisement sous-exploité, Aza Kai (PDG) et Hiraku Yanagita (directeur général), deux anciens ingénieurs de Google Japon ayant travaillé ensemble près d’une décennie, ont fondé InfiniMind, une startup basée à Tokyo spécialisée dans l’infrastructure d’analyse vidéo pour les entreprises. Leur objectif : convertir des volumes massifs de vidéos et d’audio bruts en données structurées, interrogables et exploitables. Kai, ancien responsable des systèmes d’IA, du cloud et des modèles de recommandation vidéo chez Google, souligne que les solutions existantes imposaient un compromis : soit elles identifiaient des objets dans des images isolées, soit elles manquaient de capacité à comprendre les narrations, les relations causales ou à répondre à des questions complexes. Entre 2021 et 2023, les progrès des modèles vision-langage ont changé la donne, permettant une compréhension contextuelle et sémantique du contenu vidéo. Parallèlement, la baisse des coûts des GPU et les gains annuels de performance de 15 à 20 % ont rendu ces technologies viables à grande échelle. En avril 2025, InfiniMind a lancé au Japon son premier produit, TV Pulse, une plateforme d’analyse en temps réel des contenus télévisuels, permettant aux médias et aux détaillants de suivre l’exposition des produits, la présence de marques, l’opinion des consommateurs et l’impact des campagnes de communication. Après des tests pilotes avec des diffuseurs majeurs, la startup compte déjà des clients payants, notamment des distributeurs et des agences. En mars 2026, elle lancera en bêta sa solution phare, DeepFrame, une plateforme d’intelligence vidéo à long format capable d’analyser jusqu’à 200 heures de contenu pour localiser précisément des scènes, des intervenants ou des événements. Le produit sera disponible à l’échelle mondiale en avril 2026. InfiniMind a récemment levé 5,8 millions de dollars en financement initial, mené par UTEC, avec l’appui de CX2, Headline Asia, Chiba Dojo et d’un chercheur en IA d’a16z Scout. L’entreprise s’apprête à transférer son siège social aux États-Unis tout en maintenant une présence active au Japon, terre d’expérimentation idéale grâce à son écosystème technologique avancé et à sa main-d’œuvre qualifiée. Contrairement aux solutions généralistes comme celles de TwelveLabs, InfiniMind se concentre sur les besoins spécifiques des entreprises : sécurité, surveillance, analyse de contenu pour des décisions stratégiques. Son système fonctionne sans code, traite simultanément vidéo, audio et parole, gère des fichiers illimités en durée, et se distingue par sa rentabilité. Le financement servira à améliorer DeepFrame, renforcer l’infrastructure technique, recruter des ingénieurs et étendre sa présence aux États-Unis et au Japon. Pour Kai, ce domaine représente une voie vers l’intelligence artificielle générale (AGI) : comprendre la vidéo, c’est comprendre la réalité. Si les applications industrielles sont cruciales, l’ambition ultime d’InfiniMind est d’aider les humains à mieux comprendre le monde et à prendre des décisions plus éclairées.
