منذ 16 أيام

التحيّز كإنسان: إطار معرفي للتحيّز في توليد رسومات المشهد

Xiaoguang Chang, Teng Wang, Changyin Sun, Wenzhe Cai

الملخص

إن توليد رسم المشهد هو مهمة معقدة لأنها لا تتبع نمطًا محددًا للتعرف (مثلاً، لا يوجد فرق بارز بين عبارتي "يحدق في" و"قريب من" من حيث الرؤية، في حين يمكن أن تظهر عبارة "قريب من" بين كيانات ذات تشريح مختلف). ولهذا السبب، يُعاني بعض مناهج توليد رسم المشهد من التنبؤات المتكررة للعلاقات الشائعة ناتجة عن السمات البصرية العشوائية وتعليقات البيانات المُبسطة. ولهذا السبب، ركّزت الدراسات الحديثة على مناهج "المحايدة" (unbiased) لموازنة التنبؤات وتحسين جودة رسم المشهد بشكل أكثر إفادة. ومع ذلك، ينبغي أن نُنسب قدرة الإنسان على إصدار أحكام سريعة ودقيقة حول العلاقات بين كثرة الكيانات إلى "التحيّز" (أي الخبرة والمعرفة اللغوية) وليس إلى الرؤية البحتة. ولتعزيز قدرة النموذج، مستلهمين آلية "التحيّز المعرفي"، نقترح إطارًا جديدًا يعتمد على ثلاث نماذج (3-paradigms)، يُحاكي كيف يدمج البشر السمات اللغوية للوسوم كمرشِد لتمثيلات قائمة على الرؤية، بهدف استكشاف أنماط العلاقات المخفية بشكل أفضل وتقليل تأثير الانتشار الضوضائي للبيانات البصرية. يتميز إطارنا بأنه غير مرتبط بنموذج معين لرسم المشهد، أي أنه متوافق مع أي نموذج لرسم المشهد. وثبت من خلال تجارب شاملة أن إطارنا يتفوق على الوحدات الأساسية في عدة مقاييس، مع زيادة ضئيلة جدًا في عدد المعاملات، ويحقق أداءً قياسيًا جديدًا (SOTA) على مجموعة بيانات Visual Genome.