HyperAIHyperAI

Command Palette

Search for a command to run...

OpenIns3D: التقاط وبحث للتمييز بين النماذج ثلاثية الأبعاد ذات المفردات المفتوحة

Zhening Huang Xiaoyang Wu Xi Chen Hengshuang Zhao Lei Zhu Joan Lasenby

الملخص

في هذا العمل، نقدم OpenIns3D، وهو إطار جديد يستخدم المدخلات ثلاثية الأبعاد فقط لفهم المشاهد ذات المفردات المفتوحة في ثلاثة أبعاد. يستخدم إطار OpenIns3D مخطط "القناع-التثبيت-البحث" (Mask-Snap-Lookup). يتعلم وحدة "القناع" (Mask) مقترحات القناع غير المرتبطة بالفئة في السحب النقطية ثلاثية الأبعاد، بينما تولّد وحدة "التثبيت" (Snap) صورًا مشهدية اصطناعية على مستويات متعددة وتستفيد من نماذج الرؤية واللغة ثنائية الأبعاد لاستخراج الكائنات المثيرة للاهتمام. أما وحدة "البحث" (Lookup)، فتبحث في نتائج "التثبيت" (Snap) لتسمية المقترحات التي تم إنشاؤها بالقناع.رغم بساطته، فإن هذا النهج يحقق أداءً رائدًا في مجموعة واسعة من مهام فهم المفردات المفتوحة ثلاثية الأبعاد، بما في ذلك التعرف على الكائنات، وكشف الكائنات، وتقسيم الحالات، وذلك على كلاً من قواعد البيانات الداخلية والخارجية. بالإضافة إلى ذلك، يسهل OpenIns3D التبديل بين مختلف الكاشفات ثنائية الأبعاد دون الحاجة إلى إعادة التدريب. عند دمجه مع نماذج عالم مفتوح ثنائية أبعاد قوية، فإنه يحقق نتائج ممتازة في مهام فهم المشاهد. كما أنه عندما يتم دمجه مع نماذج ثنائية الأبعاد التي تعمل بتقنية النماذج اللغوية الكبيرة (LLM)، يظهر OpenIns3D قدرة ملحوظة على فهم ومعالجة استفسارات نصية معقدة للغاية تتطلب تفكيرًا دقيقًا ومعرفة عملية بالعالم الحقيقي.صفحة المشروع: https://zheninghuang.github.io/OpenIns3D/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp