عرض وشرح: مولد تسميات الصور العصبية

وصف محتوى الصورة تلقائيًا هو مشكلة أساسية في الذكاء الاصطناعي تربط بين رؤية الحاسوب ومعالجة اللغة الطبيعية. في هذا البحث، نقدم نموذجًا جينيراتيفيًا يستند إلى هندسة متكررة عميقة يجمع بين التطورات الحديثة في رؤية الحاسوب والترجمة الآلية ويمكن استخدامه لتوليد جمل طبيعية تصف صورة. يتم تدريب النموذج لزيادة احتمالية الجملة الوصفية المستهدفة مع وجود الصورة التدريبية. أظهرت التجارب على عدة قواعد بيانات دقة النموذج وسلاسة اللغة التي يتعلمها من وصف الصور فقط. غالبًا ما يكون نموذجنا دقيقًا، وهو ما نتحقق منه بشكل نوعي وكمي. على سبيل المثال، بينما يعتبر أفضل درجة BLEU-1 (حيث تكون الدرجة الأعلى أفضل) على قاعدة بيانات Pascal هي 25، فإن نهجنا يحقق 59، مقارنةً بالأداء البشري الذي يبلغ حوالي 69. كما أظهرنا تحسينات في درجة BLEU-1 على Flickr30k، من 56 إلى 66، وعلى SBU، من 19 إلى 28. وأخيرًا، على قاعدة البيانات الجديدة COCO، حققنا درجة BLEU-4 بلغت 27.7، وهي تعتبر الأفضل حاليًا.请注意,BLEU-1 和 BLEU-4 是评估机器翻译和自然语言生成模型性能的指标,通常情况下,分数越高表示模型的输出越接近人类的描述。在阿拉伯语中,这些术语可以保留为 "BLEU-1" 和 "BLEU-4"。