Sekai: Ein Video-Datensatz zur Weltexploration

Video-Generierungstechniken haben erhebliche Fortschritte gemacht und versprechen, die Grundlage für die interaktive Erforschung der Welt zu werden. Bestehende Video-Generierungsdatensätze sind jedoch nicht gut geeignet für die Ausbildung zur Welt-Erforschung, da sie bestimmte Einschränkungen aufweisen: begrenzte Orte, kurze Dauer, statische Szenen und ein Mangel an Annotationen über die Erforschung und die Welt. In dieser Arbeit stellen wir Sekai vor (japanisch für „Welt“), einen hochwertigen Datensatz mit ersten-Person-Sicht-Videos aus der ganzen Welt, der reichhaltige Annotationen für die Welt-Erforschung enthält. Er umfasst über 5.000 Stunden an Fuß oder Drohnenbildern (FPV und UVA) aus mehr als 100 Ländern und Regionen in 750 Städten. Wir haben ein effizientes und effektives Werkzeug entwickelt, um Videos mit Informationen über den Ort, die Szene, das Wetter, die Menschenmenge, Bildunterschriften und Kamerabewegungen zu sammeln, vorzubereiten und zu annotieren. Experimente belegen die Qualität des Datensatzes. Zudem nutzen wir einen Teil davon, um ein interaktives Modell zur Video-Welt-Erforschung zu trainieren, das YUME genannt wird (japanisch für „Traum“). Wir glauben, dass Sekai den Bereich der Video-Generierung und der Welt-Erforschung fördern wird und wertvolle Anwendungen befördert.