توليد الرسوم البيانية للمشهد بدقة عالية مع نقل البيانات

توليد الرسم البياني للمشهد (SGG) مصمم لاستخراج ثلاثيات (الموضوع، الفعل، المفعول به) في الصور. حققت الأعمال الحديثة تقدماً ثابتاً في مجال TGG وأصبحت توفر أدوات مفيدة للفهم المرئي واللغوي على مستوى عالٍ. ومع ذلك، بسبب مشاكل توزيع البيانات التي تشمل التوزيع الطويل الذيل والغموض الدلالي، تميل تنبؤات نماذج SGG الحالية إلى الانهيار نحو عدة أفعال متكررة ولكن غير مفيدة (مثل: على، في)، مما يحد من التطبيق العملي لهذه النماذج في المهام اللاحقة. لمعالجة المشاكل المذكورة أعلاه، نقترح طريقة جديدة للتواصل بين البيانات الداخلية والخارجية (IETrans)، والتي يمكن تطبيقها بطريقة "أدخل واستخدم" وتوسيعها إلى SGG كبيرة تحتوي على 1,807 فئة فعل. تحاول طريقة IETrans لدينا تخفيف مشكلة توزيع البيانات بإنشاء مجموعة بيانات معززة بشكل آلي توفر المزيد من التوقيعات الكافية والمتناسقة لكل الأفعال. من خلال التدريب على هذه المجموعة المعززة، يتضاعف أداء نموذج Neural Motif الكلي بينما يحافظ على الأداء الجزئي التنافسي. الرمز والمجموعة متاحة للجمهور على الرابط https://github.com/waxnkw/IETrans-SGG.pytorch.