HyperAIHyperAI
منذ 19 أيام

الانحناء المرن 2.5D: تعلّم مجالات الاستقبال على طول المحور العمودي لتحليل مشهد RGB-D

Yajie Xing, Jingbo Wang, Gang Zeng
الانحناء المرن 2.5D: تعلّم مجالات الاستقبال على طول المحور العمودي لتحليل مشهد RGB-D
الملخص

توفر بيانات العمق معلومات هندسية يمكن أن تُسهم في تقدم مهام تحليل المشهد RGB-D. اقترح العديد من الدراسات الحديثة عمليات ت.Convolution RGB-D التي تُنشئ مجالات الاستجابة على طول المحور العمودي (العمق) للتعامل مع العلاقات المجاورة ثلاثية الأبعاد بين البكسلات. ومع ذلك، تعتمد هذه الأساليب على تحديد مجالات الاستجابة بالعمق مسبقًا باستخدام معاملات فائقة (hyperparameters)، مما يجعلها تعتمد على اختيار هذه المعاملات. في هذه الورقة، نقترح عملية جديدة تُسمى التباين 2.5D القابل للتعديل (malleable 2.5D convolution) لتعلم مجال الاستجابة على طول المحور العمودي. تمتلك عملية التباين 2.5D القابلة للتعديل واحدة أو أكثر من نوى التباين ثنائية الأبعاد (2D convolution kernels). تعتمد طريقة عملنا على تخصيص كل بكسل إلى واحدة من هذه النوى أو لا تخصيصه بأي حال، وذلك بناءً على الفروق النسبية في العمق بين البكسلات، ويتم صياغ عملية التخصيص على شكل تفاضلي (differentiable form)، بحيث يمكن تعلّمها باستخدام الانحدار التدرجي (gradient descent). يعمل المشغل المقترح على خرائط الميزات القياسية ثنائية الأبعاد، ويمكن دمجه بسلاسة في الشبكات العصبية التلافيفية المُدرّبة مسبقًا (pre-trained CNNs). أجرينا تجارب واسعة على مجموعتي بيانات تحدي في تجزئة الشكل RGB-D، وهما NYUDv2 وCityscapes، لتأكيد فعالية وأداء التعميم للطريقة المقترحة.

الانحناء المرن 2.5D: تعلّم مجالات الاستقبال على طول المحور العمودي لتحليل مشهد RGB-D | الأوراق البحثية | HyperAI