منذ 3 أشهر

لويين ترانس포رمر: تحسين التجزئة الدلالية لمحولات من خلال تمثيلات متعددة المقياس عبر انتباه النافذة الكبيرة

Haotian Yan, Chuang Zhang, Ming Wu

الملخص

تمثل التمثيلات متعددة المقياس ضرورة حيوية للتحليل الدلالي للصور. شهد المجتمع تطورًا ملحوظًا في الشبكات العصبية التلافيفية (CNN) الخاصة بالتحليل الدلالي للصور، والتي تستفيد من المعلومات السياقية متعددة المقياس. مستوحى من القوة التي يمتلكها نموذج التحويل البصري (ViT) في تصنيف الصور، تم مؤخرًا اقتراح بعض نماذج التحليل الدلالي القائمة على ViT، حيث حققت معظمها نتائج مبهرة، ولكن بثمن يُعد مرتفعًا من حيث الكفاءة الحسابية. في هذه الورقة، نجحنا في دمج التمثيلات متعددة المقياس في نموذج التحليل الدلالي القائم على ViT من خلال آلية الانتباه النافذة، مما ساهم في تحسين الأداء والكفاءة معًا. لتحقيق ذلك، قمنا بطرح آلية الانتباه النافذة الكبيرة، التي تتيح للنافذة المحلية أن تستعرض منطقة سياقية أوسع بتكاليف حسابية ضئيلة جدًا. وبتنظيم نسبة المساحة السياقية إلى المساحة المُستفسَر عنها، نمَّطنا آلية الانتباه النافذة الكبيرة (large window attention) لاستيعاب المعلومات السياقية على مقياس متعدد. علاوةً على ذلك، تم اعتماد هيكل تجميع التباعد المكاني (spatial pyramid pooling) للتعاون مع آلية الانتباه النافذة الكبيرة، ما أدى إلى تطوير مُفكّك جديد يُسمى "النافذة الكبيرة لانتباه تجميع التباعد المكاني" (LawinASPP) خصيصًا لنموذج ViT في التحليل الدلالي. يتكوّن النموذج الناتج، المُسمى Lawin Transformer، من مُشفر مبني على نموذج التحويل البصري الهرمي الفعّال (HVT) ومحول مُفكّك (decoder) مبني على LawinASPP. أظهرت النتائج التجريبية أن Lawin Transformer يوفر كفاءة محسّنة مقارنة بالأساليب الحالية. كما أن Lawin Transformer حقق أداءً جديدًا لحالة الفن (state-of-the-art) على مجموعات بيانات Cityscapes (84.4% mIoU)، ADE20K (56.2% mIoU)، وCOCO-Stuff. سيتم إتاحة الشفرة المصدرية على منصة GitHub عبر الرابط التالي: https://github.com/yan-hao-tian/lawin