HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج اندماج مبني على الانتباه متعدد الوسائط لتقسيم الدلالة للصور الملونة-العمق

Fahimeh Fooladgar Shohreh Kasaei

الملخص

يُعتبر فهم المشهد ثلاثي الأبعاد أحد المتطلبات الأساسية في تطبيقات الرؤية الحاسوبية والروبوتات. ومن بين المهام عالية المستوى في فهم المشهد ثلاثي الأبعاد، يُعد تقسيم المعنى (Semantic Segmentation) للصور الملونة (RGB) مع الصور العميقة (Depth) من المهام البارزة. وبفضل توفر كاميرات RGB-D، أصبح من المرغوب فيه تحسين دقة عملية فهم المشهد من خلال استغلال ميزات العمق إلى جانب ميزات المظهر. وبما أن الصور العميقة لا تعتمد على الإضاءة، فإنها تساهم في تحسين جودة التسمية المعنوية بالتزامن مع الصور الملونة. وعند النظر إلى الخصائص المشتركة والخاصة لكلا النوعين من البيانات، يُعزز ذلك أداء تقسيم المعنى. ومن المشكلات الرئيسية في تقسيم المعنى لصور RGB-Depth، كيفية دمج أو توحيد هذين النوعين من البيانات بحيث تُستغل المزايا الكاملة لكل منهما، مع الحفاظ على الكفاءة الحسابية. في الآونة الأخيرة، توصلت الطرق التي تعتمد على الشبكات العصبية التلافيفية العميقة إلى نتائج متفوقة على مستوى الحد الأقصى (State-of-the-art) باستخدام استراتيجيات دمج مبكرة (Early Fusion)، ومبكرة جدًا (Late Fusion)، ووسيطة (Middle Fusion). في هذا البحث، تم اقتراح نموذج فعّال من نوع المُشفّر-المُفكّك (Encoder-Decoder) يحتوي على وحدة دمج تعتمد على الانتباه، بهدف دمج التأثيرات التبادلية بين خرائط الميزات لكلا النوعين من البيانات. وتستخرج هذه الوحدة بشكل صريح الترابطات التفاعلية بين خرائط الميزات المُدمجة لكلا النوعين، بهدف استخلاص خرائط ميزات أكثر قوة من الصور RGB-Depth. وتوصل النتائج التجريبية الواسعة على ثلاث مجموعات بيانات رئيسية صعبة، وهي NYU-V2 وSUN RGB-D وStanford 2D-3D-Semantic، إلى أن الشبكة المقترحة تتفوق على النماذج المتفوقة على مستوى الحد الأقصى من حيث التكلفة الحسابية وحجم النموذج. كما تُظهر النتائج التجريبية فعالية النموذج الخفيف الوزن القائم على الانتباه في ما يتعلق بالدقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp