SwinMTL: هندسة مشتركة لتقدير العمق والتقسيم الدلالي المتزامنين من صور الكاميرا أحادية العدسة

يقدم هذا البحث إطارًا تعلم متعدد المهام مبتكرًا يسمح بتقدير العمق والتقسيم الدلالي بشكل متزامن باستخدام كاميرا واحدة. تعتمد الطريقة المقترحة على هندسة مشتركة بين المُشفر والمُفكك (Encoder-Decoder)، والتي تدمج تقنيات مختلفة لتحسين دقة مهمة تقدير العمق والتقسيم الدلالي دون التأثير سلبًا على كفاءة الحسابات. بالإضافة إلى ذلك، يتضمن البحث مكون تدريب معادي، يستخدم إطار Wasserstein GAN مع شبكة نقدية (Critic Network) لتحسين التوقعات النموذجية. تم تقييم الإطار بشكل شامل على قاعدتي بيانات - قاعدة البيانات الخارجية Cityscapes وقاعدة البيانات الداخلية NYU Depth V2 - حيث أظهر تفوقه على الطرق الرائدة حاليًا في كل من مهمتي التقسيم والعمق. كما أجرينا دراسات استبعادية لتحليل مساهمات المكونات المختلفة، بما في ذلك استراتيجيات التدريب الأولي، إدراج الشبكات النقدية، استخدام تدرج العمق اللوغاريتمي (Logarithmic Depth Scaling)، وتقوية الصور المتقدمة (Advanced Image Augmentations)، وذلك لتقديم فهم أفضل للإطار المقترح. يمكن الوصول إلى الكود المصدر المرافق عبر الرابط: \url{https://github.com/PardisTaghavi/SwinMTL}.