InternScenes: مجموعة بيانات مساحات داخلية كبيرة القوام مع إمكانية المحاكاة وتصميمات واقعية

يُعد تقدم الذكاء الاصطناعي المُجسم (Embodied AI) مرهونًا بشكل كبير بتوافر مجموعات بيانات ثلاثية الأبعاد كبيرة الحجم وقابلة للمحاكاة، تتميز بتنوع المشاهد وتخطيطات واقعية. ومع ذلك، تعاني المجموعات الحالية غالبًا من قيود تتعلق بحجم البيانات أو تنوعها، أو بتصميمات مشاهد مُبسَّطة تفتقر إلى العناصر الصغيرة، إضافة إلى اصطدامات كثيرة بين الأشياء. لمعالجة هذه العيوب، نقدّم "إنترسكينس" (InternScenes)، وهي مجموعة بيانات جديدة وضخمة وقابلة للمحاكاة للمشاهد الداخلية، تضم حوالي 40,000 مشهدًا متنوعًا، وذلك من خلال دمج ثلاث مصادر مختلفة للمشاهد: عمليات تصوير حقيقية للبيئات، ومشاهد مولَّدة بشكل خطي (procedurally generated)، ومشاهد صُمّمت يدويًا من قبل مصممين، وتتضمن 1.96 مليون كائن ثلاثي الأبعاد، وتغطي 15 نوعًا شائعًا من المشاهد و288 فئة من الأشياء. ونحرص خصوصًا على الحفاظ على عدد كبير من العناصر الصغيرة داخل المشاهد، مما يُنتج تخطيطات واقعية ومعقدة، بمتوسط 41.5 كائنًا لكل منطقة. كما يضمن نهجنا الشامل لمعالجة البيانات إمكانية المحاكاة من خلال إنشاء نسخ محاكاة دقيقة (real-to-sim replicas) للمشاهد الحقيقية، ويعزز التفاعل من خلال دمج كائنات تفاعلية في هذه المشاهد، ويحل مشكلة اصطدام الأشياء باستخدام محاكاة فيزيائية. ونُظهر قيمة "إنترسكينس" من خلال تطبيقين معياريين: توليد تخطيطات المشاهد، والتنقل نحو نقطة هدف (point-goal navigation). وتُظهر النتائج التحديات الجديدة التي تفرضها التخطيطات المعقدة والواقعية. والأهم من ذلك، أن "إنترسكينس" تمهد الطريق لتوسيع نطاق تدريب النماذج على هذين المهمتين، مما يجعل إمكانية توليد وتنقل في مشاهد معقدة أمرًا ممكنًا. ونلتزم بالإفصاح المفتوح عن البيانات، والنماذج، والاختبارات (benchmarks) لصالح المجتمع بأكمله.