Command Palette
Search for a command to run...
OpenShape: توسيع تمثيل الأشكال ثلاثية الأبعاد نحو فهم عالم مفتوح
OpenShape: توسيع تمثيل الأشكال ثلاثية الأبعاد نحو فهم عالم مفتوح
Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao
الملخص
نقدم OpenShape، وهي طريقة لتعلم التمثيلات المشتركة متعددة الوسائط للنصوص والصور والسحابات النقطية. نعتمد الإطار الشائع للتعلم التضادي متعدد الوسائط لتحقيق توحيد التمثيلات، مع التركيز بشكل خاص على توسيع نطاق التمثيلات ثلاثية الأبعاد لتمكين فهم الأشكال ثلاثية الأبعاد في العالم المفتوح. لتحقيق هذا الهدف، نوسع بيانات التدريب من خلال الجمع بين عدة مجموعات بيانات ثلاثية الأبعاد ونقترح عدة استراتيجيات لتصفية وتغذية النصوص الوصفية الضوضائية تلقائيًا. كما نستكشف ونقارن استراتيجيات توسيع شبكات العصبونات الأساسية الثلاثية الأبعاد ونقدم وحدة تعدين سلبي صعب جديدة (hard negative mining module) لتحقيق تدريب أكثر كفاءة. نقيم OpenShape على مقاييس تصنيف الصور ثلاثية الأبعاد بدون رؤية سابقة (zero-shot 3D classification benchmarks) ونبين قدراتها الفائقة في التعرف على العالم المفتوح. بخاصة، يحقق OpenShape دقة تصنيف بدون رؤية سابقة تبلغ 46.8% على معيار Objaverse-LVIS الذي يحتوي على 1,156 فئة، مقارنة بأقل من 10% للطرق الحالية. كما يحقق OpenShape دقة تبلغ 85.3% على ModelNet40، مما يجعله يتفوق بنسبة 20% على الطرق الأساسية السابقة بدون الرؤية السابقة ويكون أداءه مكافئًا لبعض الطرق المراقبة بالكامل. علاوة على ذلك، نوضح أن تمثيلات الشكل التي تم تعلمها لدينا تحتوي على مجموعة واسعة من المفاهيم البصرية والدلالية (مثل الفئات الفرعية، اللون، الشكل، الأسلوب) وتيسير التفاعلات الدقيقة بين النصوص والأشكال ثلاثية الأبعاد وبين الصور والأشكال ثلاثية الأبعاد. بسبب توافقها مع تمثيلات CLIP، يمكن أيضًا دمج تمثيلات الشكل التي تم تعلمها لدينا مع النماذج القائمة على CLIP جاهزة الاستخدام لأغراض مختلفة مثل إنشاء التعليقات التوضيحية للسحابات النقطية وإنشاء الصور المشروطة بالسحابة النقطية.