شبكات العصبيات غير المحلية

كلا العمليات التلافيفية والمتكررة هي مكونات بنائية تتعامل مع جوار محلي واحد في كل مرة. في هذا البحث، نقدم العمليات غير المحلية كعائلة عامة من المكونات البنائية لالتقاط الارتباطات البعيدة. مستوحى من الطريقة التقليدية للوسائط غير المحلية في رؤية الحاسوب، فإن عملية الوسائط غير المحلية الخاصة بنا تحسب الاستجابة في موقع ما كمجموع موزون لميزات جميع المواقع. يمكن دمج هذا المكون البنائي في العديد من هياكل رؤية الحاسوب. بالنسبة لمهام تصنيف الفيديو، حتى دون أي تقنيات إضافية، يمكن أن تنافس أو تتفوق نماذجنا غير المحلية على الفائزين الحاليين في كل من مجموعتي بيانات Kinetics و Charades. وفي مجال التعرف على الصور الثابتة، تحسن نماذجنا غير المحلية اكتشاف الأشياء / التقطيع والتقدير البصري للوضعيات على مجموعة مهام COCO. الرمز البرمجي متاح على الرابط: https://github.com/facebookresearch/video-nonlocal-net .