Sekai : Un Jeu de Données Vidéo pour l'Exploration du Monde

Les techniques de génération de vidéos ont connu des progrès remarquables, promettant d'être la base de l'exploration interactive du monde. Cependant, les jeux de données existants pour la génération de vidéos ne sont pas bien adaptés à la formation pour l'exploration du monde en raison de certaines limitations : emplacements limités, durée courte, scènes statiques et absence d'annotations concernant l'exploration et le monde. Dans cet article, nous présentons Sekai (signifiant « monde » en japonais), un jeu de données vidéo mondial de haute qualité à la première personne avec des annotations riches pour l'exploration du monde. Il comprend plus de 5 000 heures de vidéos filmées à pied ou par drone (vision à la première personne [FPV] et vision aérienne [UVA]) provenant de plus de 100 pays et régions répartis dans 750 villes. Nous avons développé une boîte à outils efficace et performante pour collecter, prétraiter et annoter les vidéos avec des informations sur l'emplacement, la scène, le temps atmosphérique, la densité de foule, les légendes et les trajectoires caméra. Les expérimentations démontrent la qualité du jeu de données. De plus, nous utilisons un sous-ensemble pour entraîner un modèle d'exploration interactive du monde vidéo nommé YUME (signifiant « rêve » en japonais). Nous croyons que Sekai bénéficiera au domaine de la génération vidéo et à celui de l'exploration du monde, tout en motivant des applications précieuses.