HyperAIHyperAI
منذ 17 أيام

SGAT4PASS: تحويلة مُراعية للهندسة الكروية للتحليل التصنيفي الشامل للمناظر المحيطة

Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li
SGAT4PASS: تحويلة مُراعية للهندسة الكروية للتحليل التصنيفي الشامل للمناظر المحيطة
الملخص

باعتبارها مشكلة مهمة وصعبة في رؤية الحاسوب، يوفر التجزئة الدلالية الشاملة (PASS) إدراكًا كاملًا للمشهد بناءً على زاوية رؤية شديدة الاتساع. عادةً، تركز الطرق الشائعة لـ PASS التي تعتمد على صور بانورامية ثنائية الأبعاد على معالجة تشوهات الصورة، لكنها تهمل الخصائص ثلاثية الأبعاد للبيانات الأصلية ذات الـ $360^{\circ}$، مما يؤدي إلى انخفاض كبير في الأداء عند استخدام صور بانورامية تحتوي على تشويش ثلاثي الأبعاد. لتحسين المقاومة تجاه التشويش ثلاثي الأبعاد، نقترح نموذجنا المُسمى "Transformer مُدرك للهندسة الكروية لتقسيم دلالي بانورامي" (SGAT4PASS)، الذي يأخذ بعين الاعتبار المعرفة بالهندسة الكروية ثلاثية الأبعاد. بشكل محدد، نقدم إطارًا مُدركًا للهندسة الكروية لـ PASS، يتضمن ثلاث وحدات رئيسية: تProjection صور مُدرك للهندسة الكروية، وتمثيل بقع قابلة للانحناء مُدرك للهندسة الكروية، ودالة خسارة مُراعية للبانوراما، حيث تأخذ هذه الوحدات بعين الاعتبار الصور المدخلة التي تحتوي على تشويش ثلاثي الأبعاد، وتُضيف قيدًا مُدركًا للهندسة الكروية على تمثيل البقع القابلة للانحناء الحالي، وتُشير إلى كثافة البكسلات في البيانات الأصلية ذات الـ $360^{\circ}$ على التوالي. أظهرت النتائج التجريبية على مجموعة بيانات Stanford2D3D البانورامية تحسنًا ملحوظًا في الأداء والثبات، مع زيادة قدرها حوالي 2% في متوسط دقة التداخل (mIoU)، كما تحسّنت استقرار الأداء لدينا بمقدار طبقة واحدة (أي بعشرة أضعاف) عند حدوث تشويشات ثلاثية أبعاد صغيرة في البيانات. يمكن الوصول إلى الكود والمادة الإضافية الخاصة بنا عبر الرابط: https://github.com/TencentARC/SGAT4PASS.