التمييز بين الحالات بواسطة هياكل شبكات ثنائية الطبقات مع الوعي بالإغلاق

فصل الأشياء المتشابكة بشكل كبير في الصور يعد تحديًا، نظرًا لعدم وجود تمييز عادةً بين محيطات الأشياء الحقيقية وحدود الإخفاء في الصور. على عكس طرق الفصل النموذجية السابقة، نقوم بنمذجة تكوين الصورة كتركيب من طبقتين متشابكتين، ونقترح شبكة ثنائية الطبقات للتحويلات التلافيفية (Bilayer Convolutional Network - BCNet)، حيث تقوم الطبقة العلوية بكشف الأشياء المخفيّة (الإخفائيات) والطبقة السفلية باستنتاج الحالات جزئيًا مخفية (المخفيات).نمذجة العلاقة الإخفائية بشكل صريح باستخدام البنية الثنائية الطبقات تفكك حدود كل من الأشياء المخفيّة والمخفيات بشكل طبيعي، وتأخذ في الاعتبار التفاعل بينهما أثناء الانحدار القناعي. ندرس فعالية البنية الثنائية الطبقات باستخدام تصميمين شهيرين للشبكات التلافيفية، وهما الشبكة التلافيفية الكاملة (Fully Convolutional Network - FCN) والشبكة التلافيفية الرسومية (Graph Convolutional Network - GCN). بالإضافة إلى ذلك، نصوغ فكك الطبقة الثنائية باستخدام محول الرؤيا (Vision Transformer - ViT)، من خلال تمثيل الحالات في الصورة كاستعلامات قابلة للتعلم منفصلة للمخفيّات والمخفيات.تحسن كبير ومتسق باستخدام كاشفات الأشياء ذات المرحلة الواحدة/المرحلتين والاستفسارات القائمة على الاستعلامات مع مجموعة متنوعة من العمود الفقري والخيارات الطبقانية يؤكد قدرة فكك الطبقة الثنائية على التعميم، كما أظهرت التجارب الواسعة على مقاييس فصل الحالات في الصور (مثل COCO وKINS وCOCOA) وعلى مقاييس فصل الحالات في الفيديو (مثل YTVIS وOVIS وBDD100K MOTS)، خاصةً في حالات الإخفاء الثقيلة. يمكن الوصول إلى الكود والبيانات عبر الرابط: https://github.com/lkeab/BCNet.