انحناء الواقع: تحويلات مُدركة للتشويه لتكيفها مع التجزئة الدلالية للمناظر الشاملة

تُوفر الصور البيانية التي تمتلك رؤية بزاوية 360 درجة معلومات شاملة عن الفضاء المحيط، مما يُشكّل أساسًا غنيًا لفهم المشهد. ولتحقيق هذا الاحتمال في صورة نماذج مقسمة بيانية قوية، يُعدّ وجود كميات كبيرة من التصنيفات البكسلية المكلفة أمرًا حاسمًا للنجاح. ورغم توفر هذه التصنيفات، إلا أنها تتركز بشكل كبير على الصور ذات الزاوية الضيقة المُصوّرة بآلة تصوير بثقب صغير (pinhole-camera)، والتي لا تُعدّ موارد مثالية جاهزة لتدريب النماذج البيانية. فالتداخلات البصرية وتوزيع السمات المرئية المميزة في الصور البيانية بزاوية 360 درجة تعيق نقل المعرفة من مجال الصور ذات الثقب الصغير الغنية بالتصنيفات، مما يؤدي إلى انخفاض كبير في الأداء. لتجاوز هذا الفرق بين المجالات ودمج التصنيفات الدلالية من الصور ذات الزاوية الضيقة والصور البيانية المحيطة، نقترح تعلّم تشوهات الكائنات وتشوهات الصور البيانية في مكونات التضمين بالقطع القابلة للتشويه (Deformable Patch Embedding - DPE) والشبكة العصبية المتعددة الطبقات القابلة للتشويه (Deformable MLP - DMLP)، والتي تُدمج في نموذجنا المبني على التحويل (Transformer) للفصل الدلالي للصور البيانية (Trans4PASS). وأخيرًا، نربط بين السمات المشتركة في تمثيلات الصور ذات الزاوية الضيقة والصور البيانية من خلال إنشاء ميزات بروتوكولية متعددة المقاييس ومحاذاة هذه الميزات في آلية التكييف البروتوكولي المتبادل (Mutual Prototypical Adaptation - MPA) للاستفادة من التكييف بين المجالات دون إشراف. على مجموعة بيانات Stanford2D3D الداخلية، يُبقي نموذج Trans4PASS مع MPA أداءً مماثلاً للنماذج الرائدة المدروسة بالكامل، مع تقليل الحاجة إلى أكثر من 1400 صورة بيانية مصنفة. وعلى مجموعة بيانات DensePASS الخارجية، نُحَسِّن الأداء الحالي بنسبة 14.39% في مقياس mIoU، ونُحدِّد معيارًا جديدًا بقيمة 56.38%. سيتم إتاحة الشفرة المصدرية بشكل عام عبر الرابط: https://github.com/jamycheung/Trans4PASS.