画像キャプショニング
画像キャプショニングは、自然言語生成技術を使用して入力画像の内容を正確に説明することを目指しています。このタスクでは、コンピュータビジョンと自然言語処理の両分野の技術が統合され、通常はエンコーダー-デコーダーフレームワークを用いて画像情報を中間表現に変換し、その後それを解読して説明文に変換します。主要な評価指標にはBLEUとCIDERがあり、一般的に使用されるデータセットにはnocapsとCOCOがあります。画像キャプショニングは、視覚障害者への画像理解支援、自動コンテンツタグ付け、およびインテリジェントな画像検索などの分野で重要な応用価値を持っています。
VizWiz 2020 test-dev
nocaps in-domain
VinVL (Microsoft Cognitive Services + MSR)
COCO Captions
mPLUG
nocaps near-domain
GIT2, Single Model
nocaps out-of-domain
PaLI
nocaps entire
MS COCO
ExpansionNet v2
VizWiz 2020 test
nocaps-XD entire
GIT
nocaps-val-in-domain
nocaps-val-overall
nocaps-XD in-domain
GIT2
nocaps-XD near-domain
GIT2
nocaps-XD out-of-domain
GIT2
TextCaps 2020
nocaps-val-near-domain
nocaps-val-out-domain
SCICAP
CNN+LSTM (Vision only, First sentence)
Flickr30k Captions test
Unified VLP
WHOOPS!
nocaps val
Prismer
Object HalBench
COCO Captions test
From Captions to Visual Concepts and Back
Conceptual Captions
ClipCap (MLP + GPT2 tuning)
FlickrStyle10K
CapDec
Localized Narratives
AIC-ICC
BanglaLekhaImageCaptions
CNN + 1D CNN
ChEBI-20
GIT-Mol
IU X-Ray
MS-COCO
NeuSyRE
MSCOCO
CapDec
Peir Gross
BiomedGPT
foundation-multimodal-models/DetailCaps-4870