HyperAIHyperAI

Command Palette

Search for a command to run...

SwinMTL: هندسة مشتركة لتقدير العمق والتقسيم الدلالي المتزامنين من صور الكاميرا أحادية العدسة

Pardis Taghavi; Reza Langari; Gaurav Pandey

الملخص

يقدم هذا البحث إطارًا تعلم متعدد المهام مبتكرًا يسمح بتقدير العمق والتقسيم الدلالي بشكل متزامن باستخدام كاميرا واحدة. تعتمد الطريقة المقترحة على هندسة مشتركة بين المُشفر والمُفكك (Encoder-Decoder)، والتي تدمج تقنيات مختلفة لتحسين دقة مهمة تقدير العمق والتقسيم الدلالي دون التأثير سلبًا على كفاءة الحسابات. بالإضافة إلى ذلك، يتضمن البحث مكون تدريب معادي، يستخدم إطار Wasserstein GAN مع شبكة نقدية (Critic Network) لتحسين التوقعات النموذجية. تم تقييم الإطار بشكل شامل على قاعدتي بيانات - قاعدة البيانات الخارجية Cityscapes وقاعدة البيانات الداخلية NYU Depth V2 - حيث أظهر تفوقه على الطرق الرائدة حاليًا في كل من مهمتي التقسيم والعمق. كما أجرينا دراسات استبعادية لتحليل مساهمات المكونات المختلفة، بما في ذلك استراتيجيات التدريب الأولي، إدراج الشبكات النقدية، استخدام تدرج العمق اللوغاريتمي (Logarithmic Depth Scaling)، وتقوية الصور المتقدمة (Advanced Image Augmentations)، وذلك لتقديم فهم أفضل للإطار المقترح. يمكن الوصول إلى الكود المصدر المرافق عبر الرابط: \url{https://github.com/PardisTaghavi/SwinMTL}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
SwinMTL: هندسة مشتركة لتقدير العمق والتقسيم الدلالي المتزامنين من صور الكاميرا أحادية العدسة | مستندات | HyperAI