استغلال أطوال متعددة للسلاسل في التدريب السريع من البداية إلى النهاية لوصف الصور

نُقدّم طريقة تُسمّى آلية التوسيع (Expansion mechanism) والتي تُعالج المدخلات دون قيود عدد العناصر في التسلسل. وبهذا، يمكن للنموذج تعلّم مهارات أكثر فعالية مقارنة بالطرق التقليدية القائمة على الانتباه. ولدعم هذه المزاعم، قمنا بتصميم معمارية جديدة تُدعى ExpansionNet v2، التي حققت نتائج قوية في تحدي إنشاء العناوين الصوتية للصور (MS COCO 2014 Image Captioning) وتحسّنت إلى الحد الأقصى في فئتها، حيث سجّلت 143.7 نقطة في مؤشر CIDErD على مجموعة الاختبار غير الزمنية (offline test split)، و140.8 نقطة في تقييم الخادم الزمني (online evaluation server)، و72.9 نقطة في مؤشر AllCIDEr على مجموعة التحقق (nocaps validation set). علاوةً على ذلك، قدمنا خوارزمية تدريب من البداية إلى النهاية (End to End) تُسرّع التدريب بنسبة تصل إلى 2.8 مرة مقارنة بالبدائل المتعارف عليها. يمكن الاطلاع على الشفرة المصدرية من خلال الرابط التالي: https://github.com/jchenghu/ExpansionNet_v2