التحويلات البصرية للتنبؤ الكثيف

نُقدّم نماذج المحولات البصرية الكثيفة (Dense Vision Transformers)، وهي معمارية تستخدم المحولات البصرية بدلًا من الشبكات التلافيفية كهيكل أساسي (backbone) للمهام التي تتطلب التنبؤات الكثيفة. نقوم بتركيب الرموز (tokens) من مراحل متعددة من المحولات البصرية لتكوين تمثيلات شبيهة بالصور بمستويات دقة مختلفة، ثم ندمجها تدريجيًا باستخدام معالج تلافيفي (convolutional decoder) لتكوين تنبؤات بدرجة دقة كاملة. يعالج الهيكل الأساسي القائم على المحولات البصرية التمثيلات بثبات وبدرجة دقة نسبيًا عالية، ويتمتع بحقل استقبال عالمي (global receptive field) في كل مرحلة. تتيح هذه الخصائص للمحولات البصرية الكثيفة تقديم تنبؤات أكثر دقة على المستوى التفصيلي وأكثر انسجامًا على الصعيد العالمي مقارنة بالشبكات التلافيفية الكاملة. تُظهر تجاربنا أن هذه المعمارية تُحقّق تحسينات كبيرة في المهام التي تتطلب تنبؤات كثيفة، وخاصةً عند توفر كمّ كبير من البيانات التدريبية. بالنسبة لتقدير العمق من صورة واحدة (monocular depth estimation)، نلاحظ تحسنًا يصل إلى 28% في الأداء النسبي مقارنة بشبكة تلافيفية حديثة ومتقدمة. عند تطبيقها على التجزئة الدلالية (semantic segmentation)، تُسجّل المحولات البصرية الكثيفة أداءً جديدًا على مجموعة بيانات ADE20K بتحقيق 49.02% لمعيار mIoU. كما نُظهر أن المعمارية قابلة للضبط الدقيق (fine-tuning) على مجموعات بيانات أصغر مثل NYUv2 وKITTI وPascal Context، حيث تُحقّق أيضًا أداءً جديدًا على هذه المجموعات. يمكن الوصول إلى نماذجنا عبر الرابط التالي: https://github.com/intel-isl/DPT.