Command Palette
Search for a command to run...
OpenIns3D: التقاط وبحث للتمييز بين النماذج ثلاثية الأبعاد ذات المفردات المفتوحة
OpenIns3D: التقاط وبحث للتمييز بين النماذج ثلاثية الأبعاد ذات المفردات المفتوحة
Zhening Huang Xiaoyang Wu Xi Chen Hengshuang Zhao Lei Zhu Joan Lasenby
الملخص
في هذا العمل، نقدم OpenIns3D، وهو إطار جديد يستخدم المدخلات ثلاثية الأبعاد فقط لفهم المشاهد ذات المفردات المفتوحة في ثلاثة أبعاد. يستخدم إطار OpenIns3D مخطط "القناع-التثبيت-البحث" (Mask-Snap-Lookup). يتعلم وحدة "القناع" (Mask) مقترحات القناع غير المرتبطة بالفئة في السحب النقطية ثلاثية الأبعاد، بينما تولّد وحدة "التثبيت" (Snap) صورًا مشهدية اصطناعية على مستويات متعددة وتستفيد من نماذج الرؤية واللغة ثنائية الأبعاد لاستخراج الكائنات المثيرة للاهتمام. أما وحدة "البحث" (Lookup)، فتبحث في نتائج "التثبيت" (Snap) لتسمية المقترحات التي تم إنشاؤها بالقناع.رغم بساطته، فإن هذا النهج يحقق أداءً رائدًا في مجموعة واسعة من مهام فهم المفردات المفتوحة ثلاثية الأبعاد، بما في ذلك التعرف على الكائنات، وكشف الكائنات، وتقسيم الحالات، وذلك على كلاً من قواعد البيانات الداخلية والخارجية. بالإضافة إلى ذلك، يسهل OpenIns3D التبديل بين مختلف الكاشفات ثنائية الأبعاد دون الحاجة إلى إعادة التدريب. عند دمجه مع نماذج عالم مفتوح ثنائية أبعاد قوية، فإنه يحقق نتائج ممتازة في مهام فهم المشاهد. كما أنه عندما يتم دمجه مع نماذج ثنائية الأبعاد التي تعمل بتقنية النماذج اللغوية الكبيرة (LLM)، يظهر OpenIns3D قدرة ملحوظة على فهم ومعالجة استفسارات نصية معقدة للغاية تتطلب تفكيرًا دقيقًا ومعرفة عملية بالعالم الحقيقي.صفحة المشروع: https://zheninghuang.github.io/OpenIns3D/