Visual Commonsense R-CNN

نقدم طريقة جديدة لتعلم تمثيل الميزات دون تدريب مراقبة، تُسمى الشبكة العصبية التلافيفية القائمة على مناطق المعرفة الشائعة البصرية (VC R-CNN)، لتُستخدم كمُشفر مناطق بصريّة مُحسَّن لمهام عالية المستوى مثل إنشاء العناوين التوضيحية (Captioning) وفهم الصور (VQA). بالنظر إلى مجموعة من مناطق الكائنات المُكتشفة في صورة (مثلاً باستخدام Faster R-CNN)، تشبه VC R-CNN من حيث المبدأ الطرق الأخرى لتعلم الميزات دون تدريب مراقبة (مثل word2vec)، حيث يُعتمد في الهدف التدريبي البديل (Proxy Training Objective) على التنبؤ بالكائنات السياقية المرتبطة بمنطقة معينة. لكنها تختلف جوهريًا: ففي VC R-CNN، يتم التنبؤ باستخدام تدخل سببي: ( P(Y|do(X)) )، بينما تعتمد الطرق الأخرى على الاحتمال التقليدي: ( P(Y|X) ). وهذا هو السبب الأساسي الذي يجعل VC R-CNN قادرة على تعلُّم معرفة نوع "فهم السياق" مثل أن الكرسي يمكن الجلوس عليه — بدلًا من مجرد تكرارات شائعة مثل أن الكرسي غالبًا ما يُوجد إذا رُئي طاولة. قمنا بتطبيق ميزات VC R-CNN بشكل واسع في النماذج الشائعة لثلاثة مهام شائعة: إنشاء العناوين التوضيحية للصور، وفهم الصور (VQA)، وتمييز السياق المرئي (VCR)، ولاحظنا تحسنًا متسقًا في الأداء عبر جميع هذه المهام، ما أدى إلى تحقيق العديد من أفضل النتائج المُحققة حتى الآن (State-of-the-Art). يمكن الوصول إلى الكود والميزات عبر الرابط: https://github.com/Wangt-CN/VC-R-CNN.