توليد الرسم البياني الشامل للمشهد باستخدام تعلم النموذج الأولي الدلالي

توليد الرسم البياني الشامل للمشهد (Panoptic Scene Graph Generation - PSG) يقوم بتحليل الأشياء وتنبؤ العلاقات (المبادرة - predicate) بينها لربط اللغة البشرية والمشاهد البصرية. ومع ذلك، فإن تفضيلات اللغات المختلفة للمعلمين والتشابكات الدلالية بين المبادرات تؤدي إلى وجود تحيز في مبادرات التسمية في مجموعة البيانات، أي وجود مبادرات مختلفة للأزواج من نفس الأشياء. يصعب على نماذج PSG بناء مستوى قرار واضح بين المبادرات بسبب هذا التحيز في مبادرات التسمية، مما يعيق بشكل كبير التطبيق الفعلي لهذه النماذج. لمعالجة هذا التحيز الأساسي، نقترح إطارًا جديدًا باسم ADTrans لتكييف مبادرات التسمية المتحيزة إلى مبادرات معلوماتية وموحدة. لضمان الاتساق والدقة خلال عملية التكييف، نقترح قياس ثبات التمثيلات في كل فئة من المبادرات، وتعلم نماذج أولية غير متحيزة للمبادرات بدرجات مختلفة. وفي الوقت نفسه، نقوم باستمرار بقياس التغيرات في التوزيع بين كل تمثيل ونموذجه الأولي، وغربلة البيانات المتحيزة المحتملة باستمرار. أخيرًا، يتم تحديد التسميات المتحيزة بسهولة في فضاء تمثيل النموذج الأولي للمبادرة غير المتحيز. تظهر التجارب أن ADTrans يحسن بشكل كبير أداء النماذج المرجعية ويحقق أداءً رائدًا جديدًا، كما أنه يظهر تعميمًا وكفاءة كبيرة على عدة مجموعات بيانات.