HyperAIHyperAI

Command Palette

Search for a command to run...

DFormer: إعادة التفكير في تعلم تمثيل RGBD للتقسيم الدلالي

Bowen Yin¹ Xuying Zhang¹ Zhongyu Li¹ Li Liu² Ming-Ming Cheng¹ Qibin Hou¹∗

الملخص

نقدم DFormer، إطار تدريب مسبق جديد لتعلم تمثيلات قابلة للنقل للمهام التي تعتمد على الصور ثنائية الأبعاد والعمق (RGB-D). يحتوي DFormer على ابتكارين رئيسيين جديدين: 1) بخلاف الأعمال السابقة التي تقوم بتشفير المعلومات RGB-D باستخدام نواة مسبقة التدريب على RGB، نقوم بتدريب النواة باستخدام أزواج الصور والعمق من ImageNet-1K، وبالتالي يتم تزويد DFormer بالقدرة على تشفير تمثيلات RGB-D؛ 2) يتكون DFormer من سلسلة من الكتل RGB-D، والتي تم تصميمها خصيصًا لتشفير كل من المعلومات RGB والمعلومات العمقية من خلال تصميم كتلة بناء جديدة. يتجنب DFormer عدم التطابق في ترميز علاقات الهندسة ثلاثية الأبعاد في الخرائط العمقية بواسطة النوى المسبقة التدريب على RGB، وهي مشكلة شائعة في الطرق الحالية ولكن لم يتم حلها بعد. قمنا بضبط DFormer المسبق التدريب على مهمتين شهيرتين تعتمدان على الصور ثنائية الأبعاد والعمق (RGB-D)، وهما تقسيم الدلالات (المعنى) للصور ثنائية الأبعاد والعمق وكشف الأجسام البارزة في الصور ثنائية الأبعاد والعمق، باستخدام رأس فك ترميز خفيف الوزن. أظهرت النتائج التجريبية أن DFormer الخاص بنا حقق أداءً جديدًا يتفوق على أفضل ما هو معروف حاليًا في هاتين المهمتين وبتكلفة حسابية أقل بمقدار النصف تقريبًا مقارنة بأفضل الطرق الحالية على كل من مجموعتي بيانات تقسيم الدلالات للصور ثنائية الأبعاد والعمق وخمس مجموعات بيانات لكشف الأجسام البارزة في الصور ثنائية الأبعاد والعمق. يمكن الوصول إلى شفرتنا البرمجية عبر الرابط: https://github.com/VCIP-RGBD/DFormer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp