ما وراء الطبقة النهائية: نموذج التحويل الهيكلية لدمج الاستفسارات مع بدء تشغيل التداخل الوكيل للفصل الثلاثي الأبعاد للInstances

يهدف التجزئة الثلاثية الأبعاد للInstances إلى التنبؤ بجموعة من كيانات الكائنات في المشهد وتمثيلها كأقنعة أمامية ثنائية (Binary Foreground Masks) مصحوبة بعلامات دلالية مقابلة. حاليًا، تلقى الطرق القائمة على المُحَوِّل (Transformer) اهتمامًا متزايدًا بسبب مساراتها الأنيقة، وانخفاض الحاجة إلى اختيار يدوي للخصائص الهندسية، وأداؤها المتميز. ومع ذلك، تفشل الطرق القائمة على المُحَوِّل في الحفاظ في نفس الوقت على معلومات قوية حول الموقع والمحتوى أثناء تهيئة الاستفسارات (Queries). بالإضافة إلى ذلك، وبسبب وجود إشراف في كل طبقة من طبقات المُفكِّك (Decoder)، تظهر ظاهرة اختفاء الكائنات مع تعمق الطبقات. لتجاوز هذه التحديات، نقدّم طريقة تُسمى "ما وراء الطبقة النهائية: مُحَوِّل مُتعدد المستويات لدمج الاستفسارات مع تهيئة مُعتمدة على الوكيل (Agent-Interpolation)" لتطبيقات التجزئة الثلاثية الأبعاد للInstances (BFL). وبشكل محدد، صُمّم وحدة تهيئة مُعتمدة على الوكيل (Agent-Interpolation Initialization Module) لتوليد استفسارات قوية ومقاومة، قادرة على تحقيق توازن بين تغطية الكائنات الأمامية وتعلم المحتوى. كما صُمّم مُفكِّك مُتعدد المستويات لدمج الاستفسارات (Hierarchical Query Fusion Decoder) للحفاظ على الاستفسارات ذات التداخل المنخفض، مما يقلل من انخفاض معدّل الاسترجاع (Recall) مع تعمق الطبقات. أظهرت التجارب الواسعة على مجموعات بيانات ScanNetV2 وScanNet200 وScanNet++ وS3DIS أداءً متميزًا لطريقة BFL.