Image Captioning
이미지 캡셔닝은 자연어 생성 기술을 활용하여 입력 이미지의 내용을 정확하게 설명하는 것을 목표로 합니다. 이 작업은 컴퓨터 비전과 자연어 처리 분야의 기술을 통합하며, 일반적으로 인코더-디코더 프레임워크를 사용하여 이미지 정보를 중간 표현으로 변환한 후 이를 설명적인 텍스트로 디코딩합니다. 주요 평가 지표는 BLEU와 CIDER이며, nocaps와 COCO 데이터셋이 이 목적을 위해 자주 사용됩니다. 이미지 캡셔닝은 시각 장애인의 이미지 이해 지원, 자동 콘텐츠 태깅, 지능형 이미지 검색 등 다양한 분야에서 중요한 응용 가치를 가지고 있습니다.
AIC-ICC
BanglaLekhaImageCaptions
CNN + 1D CNN
ChEBI-20
GIT-Mol
MS COCO
ExpansionNet v2
COCO Captions
VAST
COCO Captions test
From Captions to Visual Concepts and Back
Conceptual Captions
ClipCap (MLP + GPT2 tuning)
Flickr30k Captions test
Unified VLP
FlickrStyle10K
CapDec
foundation-multimodal-models/DetailCaps-4870
IU X-Ray
Localized Narratives
MS-COCO
NeuSyRE
MSCOCO
CapDec
nocaps entire
nocaps in-domain
VinVL (Microsoft Cognitive Services + MSR)
nocaps near-domain
GIT2, Single Model
nocaps out-of-domain
PaLI
nocaps val
Prismer
nocaps-val-in-domain
nocaps-val-near-domain
nocaps-val-out-domain
nocaps-val-overall
nocaps-XD entire
GIT2
nocaps-XD in-domain
GIT2
nocaps-XD near-domain
GIT2
nocaps-XD out-of-domain
GIT2
Object HalBench
Peir Gross
BiomedGPT
SCICAP
CNN+LSTM (Vision only, First sentence)
TextCaps 2020
VizWiz 2020 test
VizWiz 2020 test-dev
WHOOPS!