Image Captioning
コンピュータビジョンは、機械が画像や動画を解釈し理解する技術です。この技術の目的は、人間の視覚システムを模倣することで複雑なシーンの自動認識と分析を達成することです。コンピュータビジョンは医療画像診断、自動運転、セキュリティ監視などの分野で広く応用され、効率性和正確性を大幅に向上させ、知能社会の発展に寄与しています。
AIC-ICC
BanglaLekhaImageCaptions
CNN + 1D CNN
ChEBI-20
GIT-Mol
MS COCO
ExpansionNet v2
COCO Captions
VAST
COCO Captions test
From Captions to Visual Concepts and Back
Conceptual Captions
ClipCap (MLP + GPT2 tuning)
Flickr30k Captions test
Unified VLP
FlickrStyle10K
CapDec
foundation-multimodal-models/DetailCaps-4870
IU X-Ray
Localized Narratives
MS-COCO
NeuSyRE
MSCOCO
CapDec
nocaps entire
nocaps in-domain
VinVL (Microsoft Cognitive Services + MSR)
nocaps near-domain
GIT2, Single Model
nocaps out-of-domain
PaLI
nocaps val
Prismer
nocaps-val-in-domain
nocaps-val-near-domain
nocaps-val-out-domain
nocaps-val-overall
nocaps-XD entire
GIT2
nocaps-XD in-domain
GIT2
nocaps-XD near-domain
GIT2
nocaps-XD out-of-domain
GIT2
Object HalBench
Peir Gross
BiomedGPT
SCICAP
CNN+LSTM (Vision only, First sentence)
TextCaps 2020
VizWiz 2020 test
VizWiz 2020 test-dev
WHOOPS!