منذ 2 أشهر

DFormer: إعادة التفكير في تعلم تمثيل RGBD للتقسيم الدلالي

Bowen Yin; Xuying Zhang; Zhongyu Li; Li Liu; Ming-Ming Cheng; Qibin Hou

الملخص

نقدم DFormer، إطار تدريب مسبق جديد لتعلم تمثيلات قابلة للنقل للمهام التي تعتمد على الصور ثنائية الأبعاد والعمق (RGB-D). يحتوي DFormer على ابتكارين رئيسيين جديدين: 1) بخلاف الأعمال السابقة التي تقوم بتشفير المعلومات RGB-D باستخدام نواة مسبقة التدريب على RGB، نقوم بتدريب النواة باستخدام أزواج الصور والعمق من ImageNet-1K، وبالتالي يتم تزويد DFormer بالقدرة على تشفير تمثيلات RGB-D؛ 2) يتكون DFormer من سلسلة من الكتل RGB-D، والتي تم تصميمها خصيصًا لتشفير كل من المعلومات RGB والمعلومات العمقية من خلال تصميم كتلة بناء جديدة. يتجنب DFormer عدم التطابق في ترميز علاقات الهندسة ثلاثية الأبعاد في الخرائط العمقية بواسطة النوى المسبقة التدريب على RGB، وهي مشكلة شائعة في الطرق الحالية ولكن لم يتم حلها بعد. قمنا بضبط DFormer المسبق التدريب على مهمتين شهيرتين تعتمدان على الصور ثنائية الأبعاد والعمق (RGB-D)، وهما تقسيم الدلالات (المعنى) للصور ثنائية الأبعاد والعمق وكشف الأجسام البارزة في الصور ثنائية الأبعاد والعمق، باستخدام رأس فك ترميز خفيف الوزن. أظهرت النتائج التجريبية أن DFormer الخاص بنا حقق أداءً جديدًا يتفوق على أفضل ما هو معروف حاليًا في هاتين المهمتين وبتكلفة حسابية أقل بمقدار النصف تقريبًا مقارنة بأفضل الطرق الحالية على كل من مجموعتي بيانات تقسيم الدلالات للصور ثنائية الأبعاد والعمق وخمس مجموعات بيانات لكشف الأجسام البارزة في الصور ثنائية الأبعاد والعمق. يمكن الوصول إلى شفرتنا البرمجية عبر الرابط: https://github.com/VCIP-RGBD/DFormer.