نموذج الفضاء الحالة يلتقي بـ Transformer: منهج جديد للكشف عن الأجسام ثلاثية الأبعاد

تُظهر الطرق القائمة على DETR، التي تستخدم فكّات متعددة الطبقات مبنية على نموذج المحولات لتحسين استفسارات الكائنات بشكل تكراري، أداءً واعدًا في كشف الكائنات ثلاثية الأبعاد داخل البيئات الداخلية. ومع ذلك، تبقى ميزات نقاط المشهد في فكّ المحولات ثابتة، مما يؤدي إلى مساهمة ضئيلة من الطبقات العليا في فكّ المحولات، وبالتالي يحد من تحسين الأداء. في الآونة الأخيرة، أظهرت نماذج الفضاء الدولة (SSM) قدرة فعّالة على نمذجة السياق بتعقيد خطي من خلال التفاعلات التكرارية بين الحالات النظامية والمدخلات. مستوحاة من نماذج SSM، نقترح منهجية جديدة لكشف الكائنات ثلاثية الأبعاد تُسمى DEST (نظام فضاء حالة تفاعلي). في نموذج SSM التفاعلي، نصمم طريقة جديدة لتمثيل معاملات SSM تعتمد على الحالة، مما يمكّن الحالات النظامية من أن تؤدي بفعالية دور الاستفسارات في مهام كشف الكائنات ثلاثية الأبعاد داخل البيئات الداخلية. علاوة على ذلك، نقدّم أربع تصميمات رئيسية مُعدّة خصيصًا لخصائص سحابات النقاط ونموذج SSM: استراتيجيات التسلسل والمسح الثنائي الاتجاه يمكّنان من تفاعل مميزات ثنائي الاتجاه بين نقاط المشهد داخل نموذج SSM. كما يُمكّن آلية الانتباه بين الحالات من نمذجة العلاقات بين نقاط الحالة، بينما يعزز الشبكة المُدخلة ذات المُدخلات المُوجّهة (Gated Feed-Forward Network) الترابطات بين القنوات. إلى أقصى معرفة لدينا، فإن هذه هي المرة الأولى التي يتم فيها نمذجة الاستفسارات كحالات نظامية، ونقاط المشهد كمدخلات نظامية، مما يسمح بتحديث ميزات نقاط المشهد واستفسارات الكائنات بشكل متزامن بتعقيد خطي. أظهرت تجارب واسعة على مجموعتين صعبتين من البيانات فعالية منهجنا المبني على DEST. حيث تحسّن منهجنا على أساس التحقق من المعيار GroupFree بـ AP50 على مجموعتي بيانات ScanNet V2 (+5.3) وSUN RGB-D (+3.2). وبالاعتماد على قاعدة VDETR، يُحقّق منهجنا أفضل أداء حاليًا (SOTA) على مجموعتي بيانات ScanNetV2 وSUN RGB-D.