HyperAIHyperAI
منذ 2 أشهر

من العناوين إلى المفاهيم البصرية والعكس بالعكس

Hao Fang; Saurabh Gupta; Forrest Iandola; Rupesh Srivastava; Li Deng; Piotr Dollár; Jianfeng Gao; Xiaodong He; Margaret Mitchell; John C. Platt; C. Lawrence Zitnick; Geoffrey Zweig
من العناوين إلى المفاهيم البصرية والعكس بالعكس
الملخص

يقدم هذا البحث نهجًا جديدًا لإنشاء وصف الصور تلقائيًا: كاشفات بصرية، نماذج لغوية، ونماذج تشابه متعددة الوسائط تم تعلمها مباشرة من مجموعة بيانات تحتوي على عناوين الصور. نستخدم التعلم متعدد الحالات لتدريب الكاشفات البصرية للكلمات التي تظهر بشكل شائع في العناوين، بما في ذلك أجزاء مختلفة من الكلام مثل الأسماء والأفعال والصفات. تعمل مخرجات كاشف الكلمات كمدخلات مشروطة لنموذج اللغة ذي الاحتمال الأقصى. يتعلم النموذج اللغوي من مجموعة تتكون من أكثر من 400,000 وصف صورة لالتقاط إحصاءات استخدام الكلمات. نقوم بتجميع الدلالات العامة بإعادة ترتيب مرشحي العناوين باستخدام خصائص على مستوى الجملة ونموذج تشابه عميق متعدد الوسائط. يعتبر نظامنا رائدًا في المعيار الرسمي لميكروسوفت COCO (Microsoft COCO)، حيث ينتج درجة BLEU-4 قدرها 29.1٪. عند مقارنة القضاة البشريون بين عناوين النظام وأخرى كتبها أشخاص آخرون في مجموعة الاختبار المحتجزة لدينا، كانت جودة عناوين النظام متساوية أو أفضل بنسبة 34٪ من الوقت.