HyperAIHyperAI
vor 15 Tagen

InternScenes: Ein großflächiges, simulierbares Innenraumszenen-Datensatz mit realistischen Anordnungen

Weipeng Zhong, Peizhou Cao, Yichen Jin, Li Luo, Wenzhe Cai, Jingli Lin, Hanqing Wang, Zhaoyang Lyu, Tai Wang, Bo Dai, Xudong Xu, Jiangmiao Pang
InternScenes: Ein großflächiges, simulierbares Innenraumszenen-Datensatz mit realistischen Anordnungen
Abstract

Die Entwicklung von Embodied AI beruht maßgeblich auf großskaligen, simulierbaren 3D-Szenendatenbanken, die sich durch hohe Szenen-Diversität und realistische Raumaufteilungen auszeichnen. Bestehende Datensätze leiden jedoch typischerweise unter Beschränkungen hinsichtlich Datenumfang oder Diversität, vereinfachten Raumaufteilungen ohne kleine Gegenstände sowie schwerwiegenden Objekt-Kollisionen. Um diese Mängel zu beheben, stellen wir InternScenes vor – eine neuartige, großskalige, simulierbare Datenbank für Innenräume, die aus etwa 40.000 unterschiedlichen Szenen besteht und drei verschiedene Szenenquellen integriert: realweltbasierte Scans, prozedural generierte Szenen sowie von Designern erstellte Szenen. Die Datenbank umfasst 1,96 Millionen 3D-Objekte und deckt 15 gängige Szenentypen sowie 288 Objekt-Klassen ab. Besonders hervorzuheben ist die bewusste Erhaltung einer großen Anzahl kleiner Gegenstände in den Szenen, was zu realistischen und komplexen Raumaufteilungen führt, mit durchschnittlich 41,5 Objekten pro Raumregion. Unser umfassender Datenverarbeitungsprozess gewährleistet die Simulierbarkeit, indem für die realweltbasierten Scans reale zu simulierten (real-to-sim) Replikate erstellt werden; die Interaktivität wird durch die Einbindung interaktiver Objekte in die Szenen erhöht, und Objekt-Kollisionen werden durch physikalische Simulationen behoben. Wir belegen den Wert von InternScenes anhand zweier Benchmark-Anwendungen: der Szenenlayout-Generierung und der Punkt-Ziel-Navigation. Beide zeigen die neuen Herausforderungen, die durch die komplexe und realistische Raumaufteilung entstehen. Vor allem aber ermöglicht InternScenes die Skalierung des Modelltrainings für beide Aufgaben und macht die Generierung und Navigation in solch komplexen Szenen erst möglich. Wir verpflichten uns, Daten, Modelle und Benchmarks öffentlich zugänglich zu machen, um die gesamte Forschungsgemeinschaft zu unterstützen.