من العناوين إلى المفاهيم البصرية والعكس بالعكس

يقدم هذا البحث نهجًا جديدًا لإنشاء وصف الصور تلقائيًا: كاشفات بصرية، نماذج لغوية، ونماذج تشابه متعددة الوسائط تم تعلمها مباشرة من مجموعة بيانات تحتوي على عناوين الصور. نستخدم التعلم متعدد الحالات لتدريب الكاشفات البصرية للكلمات التي تظهر بشكل شائع في العناوين، بما في ذلك أجزاء مختلفة من الكلام مثل الأسماء والأفعال والصفات. تعمل مخرجات كاشف الكلمات كمدخلات مشروطة لنموذج اللغة ذي الاحتمال الأقصى. يتعلم النموذج اللغوي من مجموعة تتكون من أكثر من 400,000 وصف صورة لالتقاط إحصاءات استخدام الكلمات. نقوم بتجميع الدلالات العامة بإعادة ترتيب مرشحي العناوين باستخدام خصائص على مستوى الجملة ونموذج تشابه عميق متعدد الوسائط. يعتبر نظامنا رائدًا في المعيار الرسمي لميكروسوفت COCO (Microsoft COCO)، حيث ينتج درجة BLEU-4 قدرها 29.1٪. عند مقارنة القضاة البشريون بين عناوين النظام وأخرى كتبها أشخاص آخرون في مجموعة الاختبار المحتجزة لدينا، كانت جودة عناوين النظام متساوية أو أفضل بنسبة 34٪ من الوقت.