HyperAIHyperAI

Command Palette

Search for a command to run...

ARKit LabelMaker: مقياس جديد لفهم المشاهد ثلاثية الأبعاد الداخلية

Guangda Ji Silvan Weder Francis Engelmann Marc Pollefeys Hermann Blum

الملخص

أداء الشبكات العصبية يتناسب مع حجمها وكمية البيانات التي تم تدريبها عليها. هذا ماثل في كل من إنشاء اللغة وإنشاء الصور. ومع ذلك، يتطلب هذا هياكل شبكات قابلة للتوسع وكذا مجموعات بيانات على نطاق واسع. رغم ظهور هياكل قابلة للتوسع مثل المحوّلات (Transformers) لأعمال الرؤية ثلاثية الأبعاد، فإن لحظة GPT في مجال الرؤية ثلاثية الأبعاد لا تزال بعيدة بسبب نقص بيانات التدريب. في هذه الورقة البحثية، نقدم ARKit LabelMaker، أول مجموعة بيانات حقيقية كبيرة الحجم في العالم مع شروحات دلالية كثيفة. بصفة خاصة، نكمل مجموعة بيانات ARKitScenes بشروحات دلالية كثيفة يتم إنتاجها تلقائيًا وبمقياس كبير. لهذا الغرض، نوسع LabelMaker، وهو خط أنابيب تسمية آلي حديث، لتلبية احتياجات التدريب بمقياس كبير. وهذا يشمل توسيع الخط الأنبوبي باستخدام نماذج تقسيم متقدمة جدًا وكذا جعله مقاومًا للتحديات المرتبطة بالمعالجة على نطاق واسع. علاوة على ذلك، نتقدم بالأداء الرائد في مجموعتي بيانات ScanNet وScanNet200 باستخدام النماذج السائدة للتقطيع الدلالي ثلاثي الأبعاد، مما يظهر فعالية مجموعة البيانات التي أنتجناها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp