HyperAIHyperAI

Command Palette

Search for a command to run...

التفكيك الدلالي للإطار الواحد باستخدام الصور الكروية متعددة الوسائط

Suresh Guttikonda Jason Rambach

الملخص

في السنوات الأخيرة، أظهر المجتمع البحثي اهتمامًا كبيرًا بالصور البيانية التي توفر منظورًا اتجاهيًا بزاوية 360 درجة. ويمكن تغذية العديد من أنواع البيانات، واستغلال الخصائص المكملة لتحسين تفسير المشهد بشكل أكثر قوة وثراءً من خلال التجزئة الدلالية، بهدف استغلال الإمكانات الكاملة. ومع ذلك، ركزت الأبحاث الحالية بشكل رئيسي على التجزئة الدلالية من نوع RGB-X باستخدام نموذج العدسة المثالية (Pinhole). في هذه الدراسة، نقترح بنية تفاعلية قائمة على المحولات (Transformer-based) لدمج الوسائط المتعددة، بهدف سد الفجوة بين دمج الوسائط المتعددة وفهم المشهد الشامل. نستخدم وحدات تأخذ بعين الاعتبار التشوهات (Distortion-aware modules) لمعالجة التشوهات الشديدة في الأشياء والتشوهات الناتجة عن تمثيل المخطط المستوي المتساوي (Equirectangular representation). علاوةً على ذلك، نقوم بتفاعلات بين الوسائط لتصحيح الميزات وتبادل المعلومات قبل دمج الميزات، بهدف نقل السياقات طويلة المدى بين تدفقات الميزات الثنائية والثلاثية الوسائط. وقد أظهرت اختبارات شاملة باستخدام مزيج من أربع أنواع مختلفة من الوسائط في ثلاث مجموعات بيانات داخلية تُظهر مناظر بيانية، أداءً متفوقًا على أفضل النماذج الحالية من حيث متوسط مؤشر التداخل (mIoU): 60.60% على بيانات Stanford2D3DS (RGB-HHA)، و71.97% على Structured3D (RGB-D-N)، و35.92% على Matterport3D (RGB-D). ونخطط لإطلاق جميع الشيفرات النصية والنماذج المدربة قريبًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp