الشبكات العصبية غير المحلية المنفصلة

يُعدّ الكتلة غير المحلية (non-local block) وحدة شائعة الاستخدام لتعزيز قدرة الشبكة العصبية التلافيفية العادية على نمذجة السياق. في هذا البحث، نقوم بدراسة معمقة للكتلة غير المحلية، حيث نكتشف أن عملية حساب الانتباه فيها يمكن تقسيمها إلى حدين: حد متجانس زوجي (whitened pairwise term) يعكس العلاقة بين نقطتين، وحد أحادي (unary term) يمثل بارزة كل نقطة. كما لاحظنا أن الحدين، عند تدريبهما بشكل منفصل، يميلان إلى نمذجة أدلة بصرية مختلفة، فمثلاً، يتعلم الحد المتجانس الزوجي العلاقات داخل المنطقة، بينما يتعلم الحد الأحادي الحدود البارزة. ومع ذلك، فإن هذين الحدين مترابطان بشكل وثيق في الكتلة غير المحلية، مما يعيق تعلم كل منهما. استناداً إلى هذه النتائج، نقدّم كتلة غير محلية منفصلة (disentangled non-local block)، حيث يتم فصل الحدين لتسهيل التعلم لكل منهما. ونُظهر فعالية التصميم المنفصل في مهام مختلفة، مثل التجزئة الدلالية (semantic segmentation) على مجموعات بيانات Cityscapes وADE20K وPASCAL Context، والكشف عن الكائنات (object detection) على COCO، وتمييز الحركات (action recognition) على Kinetics.