HyperAIHyperAI
منذ 2 أشهر

ARKit LabelMaker: مقياس جديد لفهم المشاهد ثلاثية الأبعاد الداخلية

Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum
ARKit LabelMaker: مقياس جديد لفهم المشاهد ثلاثية الأبعاد الداخلية
الملخص

أداء الشبكات العصبية يتناسب مع حجمها وكمية البيانات التي تم تدريبها عليها. هذا ماثل في كل من إنشاء اللغة وإنشاء الصور. ومع ذلك، يتطلب هذا هياكل شبكات قابلة للتوسع وكذا مجموعات بيانات على نطاق واسع. رغم ظهور هياكل قابلة للتوسع مثل المحوّلات (Transformers) لأعمال الرؤية ثلاثية الأبعاد، فإن لحظة GPT في مجال الرؤية ثلاثية الأبعاد لا تزال بعيدة بسبب نقص بيانات التدريب. في هذه الورقة البحثية، نقدم ARKit LabelMaker، أول مجموعة بيانات حقيقية كبيرة الحجم في العالم مع شروحات دلالية كثيفة. بصفة خاصة، نكمل مجموعة بيانات ARKitScenes بشروحات دلالية كثيفة يتم إنتاجها تلقائيًا وبمقياس كبير. لهذا الغرض، نوسع LabelMaker، وهو خط أنابيب تسمية آلي حديث، لتلبية احتياجات التدريب بمقياس كبير. وهذا يشمل توسيع الخط الأنبوبي باستخدام نماذج تقسيم متقدمة جدًا وكذا جعله مقاومًا للتحديات المرتبطة بالمعالجة على نطاق واسع. علاوة على ذلك، نتقدم بالأداء الرائد في مجموعتي بيانات ScanNet وScanNet200 باستخدام النماذج السائدة للتقطيع الدلالي ثلاثي الأبعاد، مما يظهر فعالية مجموعة البيانات التي أنتجناها.

ARKit LabelMaker: مقياس جديد لفهم المشاهد ثلاثية الأبعاد الداخلية | أحدث الأوراق البحثية | HyperAI