توليد الرسم البياني للمشهد بدون تحيز من التدريب المتحيز

مهمة توليد الرسم البياني للمشهد (SGG) في يومنا هذا لا تزال بعيدة عن التطبيق العملي، وذلك بشكل أساسي بسبب التحيز الشديد في التدريب، مثل تبسيط الأنشطة المتنوعة "الإنسان يمشي على / يجلس على / يستلقي على الشاطئ" إلى "الإنسان على الشاطئ". بالنظر إلى هذا النوع من SGG، فإن المهام اللاحقة مثل استجواب الصور المرئية (VQA) لن تستطيع الاستدلال على بنية المشهد بشكل أفضل من مجرد مجموعة من الأشياء. ومع ذلك، فإن إزالة التحيز في SGG ليست سهلة لأن الأساليب التقليدية لإزالة التحيز لا تستطيع التمييز بين التحيز الجيد والتحيز السيء، مثل السياق الجيد المسبق (مثل "شخص يقرأ كتابًا" بدلاً من "يأكل") والتحيز الطويل الذيل السيء (مثل "بالقرب من" يهيمن على "خلف / أمام").في هذه الورقة البحثية، نقدم إطار عمل جديد لتوليد الرسم البياني للمشهد يستند إلى الاستدلال السببي وليس إلى الاحتمال التقليدي. أولاً، نقوم ببناء رسم بياني سببي لـ SGG ونقوم بالتدريب المُتحيز التقليدي باستخدام هذا الرسم البياني. ثم، نقترح استخلاص السببية المضادة للواقع من الرسم البياني المُدرب لاستنتاج تأثير التحيز السيء الذي يجب إزالته. بشكل خاص، نستخدم مجموع التأثير المباشر الكلي (TDE) كنقطة النهاية المقترحة للأداء غير المتحيز في SGG.يجب ملاحظة أن إطارنا العمل غير مرتبط بأي نموذج لتوليد الرسم البياني للمشهد وبالتالي يمكن تطبيقه بشكل واسع في المجتمع الذي يسعى للتنبؤات غير المتحيزة. باستخدام أداة تشخيص الرسم البياني للمشهد المقترحة على مقاييس SGG Visual Genome وبعض النماذج السائدة، لاحظنا تحسينات كبيرة مقارنة بالأساليب السابقة الأكثر تقدمًا.