كشف الكائنات البارزة باستخدام صور RGB-D من خلال الشبكات العصبية التلافيفية ثلاثية الأبعاد

كشف الكائنات البارزة باستخدام الصور الملونة RGB-D (SOD) لاقى اهتمامًا بحثيًا متزايدًا مؤخرًا، وظهرت العديد من الطرق القائمة على التعلم العميق باستخدام هياكل مشفرة-مُفكَّكة (encoder-decoder). ومع ذلك، فإن معظم النماذج الحالية لـ RGB-D SOD تقوم بدمج الميزات إما في مرحلة المشفرة (encoder) أو في مرحلة المُفكِّكة (decoder)، مما يضمن بالكاد قدرة كافية على الدمج عبر النماذج المختلفة. في هذا البحث، نقدم أول محاولة لمعالجة مسألة كشف الكائنات البارزة باستخدام الصور الملونة RGB-D من خلال الشبكات العصبية التلافيفية ثلاثية الأبعاد (3D CNN). النموذج المقترح، الذي يُسمى RD3D، يهدف إلى تنفيذ الدمج المسبق في مرحلة المشفرة، والدمج العميق في مرحلة المُفكِّكة، بهدف تعزيز التكامل الفعّال بين تدفق الصور الملونة (RGB) وتدفق العمق. بشكل محدد، يقوم RD3D أولًا بإجراء دمج مسبق بين النمطين RGB والعُمق من خلال مشفر ثلاثي الأبعاد مُضخم (inflated 3D encoder)، ثم يوفر دمجًا معمّقًا للميزات من خلال تصميم مُفكِّك ثلاثي الأبعاد مزود بمسارات عودة غنية (RBPP) للاستفادة من قدرة التجميع الواسعة التي تتمتع بها التلافيف الثلاثية الأبعاد. وباستخدام هذه الاستراتيجية التدريجية للدمج التي تشمل كل من المشفرة والمُفكِّكة، يمكن استغلال تفاعل فعّال وشامل بين النمطين، مما يعزز دقة الكشف. أظهرت التجارب الواسعة على ستة مجموعات بيانات معيارية شائعة الاستخدام أن نموذج RD3D يتفوّق على 14 من أحدث النماذج في مجال كشف الكائنات البارزة باستخدام RGB-D من حيث أربع مقاييس تقييم رئيسية. سيتم إتاحة الكود الخاص بنا للجمهور: https://github.com/PPOLYpubki/RD3D.