منذ 12 أيام
تدريب على التنوّع في وصف الصور بالفقرات
{George Han, er, Luke Melas-Kyriazi, Alex Rush}

الملخص
تهدف نماذج وصف الفقرات الصورية إلى إنتاج وصف تفصيلي للصورة المصدرية. وتستخدم هذه النماذج تقنيات مشابهة لتلك المستخدمة في نماذج وصف الصور القياسية، لكنها واجهت مشكلات في توليد النص، لا سيما نقص التنوّع بين الجمل، مما حدّ من فعاليتها. في هذا العمل، ننظر إلى تطبيق التدريب على مستوى التسلسل لهذه المهمة. ونجد أن التدريب الذاتي القياسي يُنتج نتائج ضعيفة، لكن عند دمجه مع عقوبة متكاملة على تكرار الترايغرام (ثلاثية الكلمات)، يُنتج نتائج أكثر تنوّعًا في الفقرات. ويُحسّن هذا النهج البسيط من أفضل نتيجة مُحققة على مجموعة بيانات وصف الفقرات Visual Genome من 16.9 إلى 30.6 في مؤشر CIDEr، مع تحقيق مكاسب أيضًا في مؤشري METEOR وBLEU، دون الحاجة إلى أي تغييرات معمارية.