التعليق على الصور
تهدف تسمية الصور إلى وصف محتوى الصور الإدخال بدقة باستخدام تقنيات توليد اللغة الطبيعية. يدمج هذا المهمة تقنيات من مجال الرؤية الحاسوبية ومعالجة اللغة الطبيعية، ويستخدم عادة إطارًا مشفرًا-مفككًا لتحويل معلومات الصورة إلى تمثيلات الوسيط التي يتم ترجمتها بعد ذلك إلى نصوص وصفية. تشمل المقاييس التقييمية الرئيسية BLEU و CIDER، بينما تعتبر nocaps و COCO من أشهر المجموعات المستخدمة لهذا الغرض. تحمل تسمية الصور قيمة تطبيقية كبيرة في مجالات مثل مساعدة الأشخاص ذوي الإعاقة البصرية على فهم الصور، والتصنيف الآلي للمحتوى، والبحث الذكي عن الصور.
VizWiz 2020 test-dev
nocaps in-domain
VinVL (Microsoft Cognitive Services + MSR)
nocaps near-domain
GIT2, Single Model
nocaps out-of-domain
PaLI
COCO Captions
mPLUG
nocaps entire
MS COCO
ExpansionNet v2
VizWiz 2020 test
nocaps-XD entire
GIT
nocaps-val-overall
TextCaps 2020
nocaps-XD near-domain
GIT2
nocaps-val-in-domain
nocaps-XD in-domain
GIT2
nocaps-XD out-of-domain
GIT2
nocaps-val-near-domain
nocaps-val-out-domain
SCICAP
CNN+LSTM (Vision only, First sentence)
Flickr30k Captions test
Unified VLP
WHOOPS!
Object HalBench
nocaps val
Prismer
Localized Narratives
Conceptual Captions
ClipCap (MLP + GPT2 tuning)
FlickrStyle10K
CapDec
COCO Captions test
From Captions to Visual Concepts and Back
BanglaLekhaImageCaptions
CNN + 1D CNN
AIC-ICC
Peir Gross
BiomedGPT
ChEBI-20
GIT-Mol
MSCOCO
CapDec
IU X-Ray
MS-COCO
NeuSyRE
foundation-multimodal-models/DetailCaps-4870