تعلم السياق الزمني الهرمي لإكمال المشهد الدلالي بالكاميرا

إن إكمال المشهد الدلالي ثلاثي الأبعاد (SSC) المستند إلى الكاميرا يعد حاسماً في التنبؤ بالتصاميم ثلاثية الأبعاد المعقدة باستخدام ملاحظات صورية ثنائية الأبعاد محدودة. تعمد الحلول الرئيسية الحالية عموماً إلى استغلال المعلومات الزمنية من خلال تجميع الإطارات التاريخية بشكل خشن لتعزيز الإطار الحالي، مما يؤدي حتماً إلى تقليص العناصر الفعالة وزيادة صعوبة التعلم. لحل هذه المشكلة، نقدم HTCL، وهو نموذج جديد للتعلم السياقي الزمني الهرمي لتحسين إكمال المشهد الدلالي المستند إلى الكاميرا. يشمل الابتكار الرئيسي في هذا العمل تقسيم التعلم السياقي الزمني إلى خطوتين هرميتين: (أ) قياس الانسجام بين الإطارات و(ب) التحسين الديناميكي القائم على الانسجام. أولاً، لفصل السياق المتعلق بشكل حاسم عن المعلومات الزائدة، نقدم الانسجام النمطي مع العزل الواعي بالحجم ومتعلمين مستقلين متعددين لنمذجة التوافق السياقي بدقة عالية. ثانياً، لتعويض الملاحظات غير الكاملة بشكل ديناميكي، نقوم بتعديل مواقع عينات الخصائص بشكل تكيفي بناءً على المواقع التي تم تحديدها في البداية والتي تتمتع بانسجام عالٍ ومناطق ذات صلة مجاورة لها. طريقتنا تحتل المركز الأول في معيار SemanticKITTI وتتفوق حتى على الأساليب القائمة على LiDAR من حيث mIoU في معيار OpenOccupancy. رمز البرمجيات الخاص بنا متاح على https://github.com/Arlo0o/HTCL.