الملخص

يقدم هذا البحث نهجًا جديدًا لإنشاء وصف الصور تلقائيًا: كاشفات بصرية، نماذج لغوية، ونماذج تشابه متعددة الوسائط تم تعلمها مباشرة من مجموعة بيانات تحتوي على عناوين الصور. نستخدم التعلم متعدد الحالات لتدريب الكاشفات البصرية للكلمات التي تظهر بشكل شائع في العناوين، بما في ذلك أجزاء مختلفة من الكلام مثل الأسماء والأفعال والصفات. تعمل مخرجات كاشف الكلمات كمدخلات مشروطة لنموذج اللغة ذي الاحتمال الأقصى. يتعلم النموذج اللغوي من مجموعة تتكون من أكثر من 400,000 وصف صورة لالتقاط إحصاءات استخدام الكلمات. نقوم بتجميع الدلالات العامة بإعادة ترتيب مرشحي العناوين باستخدام خصائص على مستوى الجملة ونموذج تشابه عميق متعدد الوسائط. يعتبر نظامنا رائدًا في المعيار الرسمي لميكروسوفت COCO (Microsoft COCO)، حيث ينتج درجة BLEU-4 قدرها 29.1٪. عند مقارنة القضاة البشريون بين عناوين النظام وأخرى كتبها أشخاص آخرون في مجموعة الاختبار المحتجزة لدينا، كانت جودة عناوين النظام متساوية أو أفضل بنسبة 34٪ من الوقت.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار