الملخص

نقدم OpenShape، وهي طريقة لتعلم التمثيلات المشتركة متعددة الوسائط للنصوص والصور والسحابات النقطية. نعتمد الإطار الشائع للتعلم التضادي متعدد الوسائط لتحقيق توحيد التمثيلات، مع التركيز بشكل خاص على توسيع نطاق التمثيلات ثلاثية الأبعاد لتمكين فهم الأشكال ثلاثية الأبعاد في العالم المفتوح. لتحقيق هذا الهدف، نوسع بيانات التدريب من خلال الجمع بين عدة مجموعات بيانات ثلاثية الأبعاد ونقترح عدة استراتيجيات لتصفية وتغذية النصوص الوصفية الضوضائية تلقائيًا. كما نستكشف ونقارن استراتيجيات توسيع شبكات العصبونات الأساسية الثلاثية الأبعاد ونقدم وحدة تعدين سلبي صعب جديدة (hard negative mining module) لتحقيق تدريب أكثر كفاءة. نقيم OpenShape على مقاييس تصنيف الصور ثلاثية الأبعاد بدون رؤية سابقة (zero-shot 3D classification benchmarks) ونبين قدراتها الفائقة في التعرف على العالم المفتوح. بخاصة، يحقق OpenShape دقة تصنيف بدون رؤية سابقة تبلغ 46.8% على معيار Objaverse-LVIS الذي يحتوي على 1,156 فئة، مقارنة بأقل من 10% للطرق الحالية. كما يحقق OpenShape دقة تبلغ 85.3% على ModelNet40، مما يجعله يتفوق بنسبة 20% على الطرق الأساسية السابقة بدون الرؤية السابقة ويكون أداءه مكافئًا لبعض الطرق المراقبة بالكامل. علاوة على ذلك، نوضح أن تمثيلات الشكل التي تم تعلمها لدينا تحتوي على مجموعة واسعة من المفاهيم البصرية والدلالية (مثل الفئات الفرعية، اللون، الشكل، الأسلوب) وتيسير التفاعلات الدقيقة بين النصوص والأشكال ثلاثية الأبعاد وبين الصور والأشكال ثلاثية الأبعاد. بسبب توافقها مع تمثيلات CLIP، يمكن أيضًا دمج تمثيلات الشكل التي تم تعلمها لدينا مع النماذج القائمة على CLIP جاهزة الاستخدام لأغراض مختلفة مثل إنشاء التعليقات التوضيحية للسحابات النقطية وإنشاء الصور المشروطة بالسحابة النقطية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

OpenShape: توسيع تمثيل الأشكال ثلاثية الأبعاد نحو فهم عالم مفتوح

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OpenShape: توسيع تمثيل الأشكال ثلاثية الأبعاد نحو فهم عالم مفتوح

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

OpenShape: توسيع تمثيل الأشكال ثلاثية الأبعاد نحو فهم عالم مفتوح

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters