التعلم القائم على النماذج مع الوعي بالتنوع الدلالي لإنشاء رسم بياني للمشهد دون تحيز

مهمة توليد الرسم البياني للمشهد (SGG) تتضمن اكتشاف الأشياء داخل الصورة وتوقع العبارات التي تمثل العلاقات بين هذه الأشياء. ومع ذلك، في مجموعات البيانات المعيارية لـ SGG، يتم توثيق كل زوج من الموضوع والكائن بعبارة واحدة فقط، رغم أن عبارة واحدة قد تظهر بمعانٍ متنوعة (أي التنوع الدلالي). نتيجة لذلك، يتم تدريب النماذج الحالية لـ SGG على توقع العبارة الوحيدة لكل زوج، مما يؤدي إلى إغفال التنوع الدلالي الذي قد يتوافر في العبارة وينتج عنه توقعات متحيزة. في هذا البحث، نقترح إطارًا جديدًا مستقلًا عن النموذج يُعرف بـ التعلم القائم على النماذج الأولية مع الوعي بالتنوع الدلالي (DPL)، والذي يمكنه تقديم توقعات غير متحيزة بناءً على فهم التنوع الدلالي للعبارات. تحديدًا، يتعلم DPL المناطق في الفضاء الدلالي التي تغطيها كل عبارة لتمييز المعاني المختلفة التي يمكن أن تمثلها عبارة واحدة. أثبتت التجارب الواسعة أن الإطار المقترح لدينا المستقل عن النموذج DPL يحقق تحسينًا كبيرًا في أداء النماذج الحالية لـ SGG، كما أنه يفهم بشكل فعال التنوع الدلالي للعبارات.