HyperAIHyperAI

Command Palette

Search for a command to run...

الترميز الدلالي لصورة RGB-D القائمة على التباعد باستخدام محول الانتباه القابل للتشويه

Minh Bui Kostas Alexis

الملخص

الاستشعار والتفكير القائمين على الرؤية ضروريان لفهم المشهد في أي نظام ذاتي. تُستخدم صور RGB والصور العميقة بشكل شائع لالتقاط السمات الشكلية والهندسية للبيئة. يُعد تطوير طرق لفهم هذه البيانات بشكل موثوق أمرًا بالغ الأهمية للتطبيقات الواقعية، حيث لا يمكن تجنب القياسات المزعجة في كثير من الأحيان. في هذه الدراسة، نقدّم إطارًا قائمًا على التشتت (diffusion) لمعالجة مشكلة تقسيم الدلالة في صور RGB-D. علاوةً على ذلك، نُظهر أن استخدام نموذج انتباه مُعدّل (Deformable Attention Transformer) كمُشفّر لاستخراج السمات من الصور العميقة يُمكنه التقاط الخصائص المميزة للمناطق غير الصالحة في القياسات العميقة بشكل فعّال. يُظهر إطارنا التوليدي قدرة أكبر على نمذجة التوزيع الكامن وراء صور RGB-D، ويحقق أداءً متميّزًا في السيناريوهات الصعبة مع وقت تدريب أقل بشكل كبير مقارنةً بالطرق التمييزية. تُشير النتائج التجريبية إلى أن نهجنا يحقق أداءً من الطراز الأول (State-of-the-Art) على كلا مجموعتي البيانات NYUv2 وSUN-RGBD من حيث الأداء العام، وبشكل خاص في أصعب صور البيانات المتوفرة في هاتين المجموعتين. ستكون صفحة المشروع متاحة على الرابط التالي: https://diffusionmms.github.io/


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الترميز الدلالي لصورة RGB-D القائمة على التباعد باستخدام محول الانتباه القابل للتشويه | مستندات | HyperAI