التفكيك الدلالي للإطار الواحد باستخدام الصور الكروية متعددة الوسائط

في السنوات الأخيرة، أظهر المجتمع البحثي اهتمامًا كبيرًا بالصور البيانية التي توفر منظورًا اتجاهيًا بزاوية 360 درجة. ويمكن تغذية العديد من أنواع البيانات، واستغلال الخصائص المكملة لتحسين تفسير المشهد بشكل أكثر قوة وثراءً من خلال التجزئة الدلالية، بهدف استغلال الإمكانات الكاملة. ومع ذلك، ركزت الأبحاث الحالية بشكل رئيسي على التجزئة الدلالية من نوع RGB-X باستخدام نموذج العدسة المثالية (Pinhole). في هذه الدراسة، نقترح بنية تفاعلية قائمة على المحولات (Transformer-based) لدمج الوسائط المتعددة، بهدف سد الفجوة بين دمج الوسائط المتعددة وفهم المشهد الشامل. نستخدم وحدات تأخذ بعين الاعتبار التشوهات (Distortion-aware modules) لمعالجة التشوهات الشديدة في الأشياء والتشوهات الناتجة عن تمثيل المخطط المستوي المتساوي (Equirectangular representation). علاوةً على ذلك، نقوم بتفاعلات بين الوسائط لتصحيح الميزات وتبادل المعلومات قبل دمج الميزات، بهدف نقل السياقات طويلة المدى بين تدفقات الميزات الثنائية والثلاثية الوسائط. وقد أظهرت اختبارات شاملة باستخدام مزيج من أربع أنواع مختلفة من الوسائط في ثلاث مجموعات بيانات داخلية تُظهر مناظر بيانية، أداءً متفوقًا على أفضل النماذج الحالية من حيث متوسط مؤشر التداخل (mIoU): 60.60% على بيانات Stanford2D3DS (RGB-HHA)، و71.97% على Structured3D (RGB-D-N)، و35.92% على Matterport3D (RGB-D). ونخطط لإطلاق جميع الشيفرات النصية والنماذج المدربة قريبًا.