HyperAI

Image Captioning

تهدف تسمية الصور إلى وصف محتوى الصور الإدخال بدقة باستخدام تقنيات توليد اللغة الطبيعية. يدمج هذا المهمة تقنيات من مجال الرؤية الحاسوبية ومعالجة اللغة الطبيعية، ويستخدم عادة إطارًا مشفرًا-مفككًا لتحويل معلومات الصورة إلى تمثيلات الوسيط التي يتم ترجمتها بعد ذلك إلى نصوص وصفية. تشمل المقاييس التقييمية الرئيسية BLEU و CIDER، بينما تعتبر nocaps و COCO من أشهر المجموعات المستخدمة لهذا الغرض. تحمل تسمية الصور قيمة تطبيقية كبيرة في مجالات مثل مساعدة الأشخاص ذوي الإعاقة البصرية على فهم الصور، والتصنيف الآلي للمحتوى، والبحث الذكي عن الصور.