HyperAIHyperAI
منذ 15 أيام

SDSC-UNet: نموذج شكل U مبني على ViT مع اتصالات تخطي مزدوجة لاستخراج المباني

{Guixu Zhang, Qian Zhang, Renhe Zhang}
الملخص

بفضل التفاعل الفعّال للمعلومات العالمية، تم استخدام نماذج المحولات البصرية (ViTs) على نطاق واسع في مهام استخلاص المباني. ومع ذلك، تختلف المباني في صور الاستشعار عن بعد (RS) بشكل كبير من حيث الحجم. تعتمد النماذج السائدة القائمة على ViT لتصنيف صور RS على مُحول Swin، الذي يفتقر إلى معلومات متعددة المقياس داخل كتلة ViT. بالإضافة إلى ذلك، تتصل هذه النماذج فقط بإخراج كتلة مُشفر ViT الكاملة بالمشفر (decoder)، مما يؤدي إلى إهمال معلومات التشابه الموجودة في خرائط الانتباه داخل كتلة مُشفر ViT، ويمنعها من توفير اعتماديات عالمية أفضل للمُشفر. لحل هذه المشكلات، نقدم محولًا جديدًا يُسمى "المحول المنفصل" (Shunted Transformer)، الذي يمكّن النموذج من التقاط المعلومات متعددة المقياس داخليًا، وفي الوقت نفسه يُنشئ اعتماديات عالمية كاملة، بهدف بناء نموذج مُستقل تمامًا على ViT وبنية U-شكلية لاستخلاص المباني. علاوة على ذلك، على عكس البنية التقليدية ذات الاتصال المنفصل الواحد (single-skip-connection) المستخدمة في النماذج ذات البنية U-شكلية، قمنا بتصميم بنية اتصال منفصل مزدوجة جديدة داخل النموذج. وتُنقل هذه البنية بشكل متزامن خرائط الانتباه داخل كتلة مُشفر ViT، إلى جانب إخراجها الكامل إلى المشفر، مما يُمكّن من استغلال المعلومات المتوفرة في كتلة مُشفر ViT بشكل كامل، ويوفّر توجيهًا معلوماتيًا عالميًا أفضل للمُشفر. ولهذا السبب، أطلقنا على النموذج اسم "شنتد دوبل سكيب كونكتيون يو-نت" (SDSC-UNet). كما قمنا بتصميم وحدة تجميع ميزات جديدة تُسمى "وحدة تجميع التكبير المزدوجة بالاتصال المنفصل" (DSUFM)، لدمج المعلومات بشكل فعّال. وقد حقق النموذج أداءً يُصنف ضمن أفضل النماذج الحالية (SOTA) على مجموعة بيانات Inria Aerial Image Labeling، حيث بلغ متوسط دقة التداخل (IoU) 83.02%. سيتم نشر الكود على: https://github.com/stdcoutzrh/BuildingExtraction.

SDSC-UNet: نموذج شكل U مبني على ViT مع اتصالات تخطي مزدوجة لاستخراج المباني | أحدث الأوراق البحثية | HyperAI