تقسيم الكائن الشفاف في البيئة الطبيعية باستخدام المحول

تقدم هذه الدراسة مجموعة بيانات جديدة لتقسيم الأشياء الشفافة بدقة عالية، وتُسمى Trans10K-v2، والتي تمتد من Trans10K-v1، وهي أول مجموعة بيانات كبيرة الحجم لتقسيم الأشياء الشفافة. على عكس Trans10K-v1 التي تضم فقط فئتين محدودتين، تتميز المجموعة الجديدة بعدة مزايا جذابة. (1) تضم 11 فئة دقيقة من الأشياء الشفافة، وهي شائعة في البيئة المنزلية البشرية، مما يجعلها أكثر ملاءمة للتطبيقات الواقعية. (2) تفرض مجموعة Trans10K-v2 تحديات أكبر على الطرق المتقدمة الحالية لتقسيم الصور مقارنة بالإصدار السابق. بالإضافة إلى ذلك، تم اقتراح نموذج جديد لتقسيم الصور يعتمد على المحولات (transformer)، يُسمى Trans2Seg. أولاً، يوفر معالج المحولات (transformer encoder) في Trans2Seg مجال استقبال عالمي، مقارنةً بمجال الاستقبال المحلي الذي تقدمه الشبكات العصبية التلافيفية (CNN)، مما يُظهر مزايا واضحة مقارنةً بالبنية التقليدية القائمة على CNN فقط. ثانيًا، من خلال صياغة مسألة التقسيم الدلالي كمشكلة بحث في قاموس، قمنا بتصميم مجموعة من النماذج القابلة للتعلم كاستعلامات لمعالج المحولات (transformer decoder) في Trans2Seg، حيث يتعلم كل نموذج إحصائيات الفئة المقابلة له في المجموعة الكاملة. وقد تم اختبار أكثر من 20 طريقة حديثة لتقسيم الصور الدلالي، وأظهرت النتائج أن Trans2Seg تتفوق بشكل كبير على جميع الطرق القائمة على CNN، مما يُبرز القدرة الواعدة للخوارزمية المقترحة في حل مشكلة تقسيم الأشياء الشفافة.