Referenzausdruckssegmentierung
Referring Expression Segmentation (RES) zielt darauf ab, spezifische Objektinstanzen in Bildern oder Videos durch linguistische Ausdrücke auf Pixel-Ebene zu annotieren. Diese Aufgabe erfordert, dass der referierende Ausdruck (RE) das Zielobjekt in der Szene oder im Dialog eindeutig identifiziert, um die Genauigkeit und Einzigartigkeit der Annotation zu gewährleisten. Diese Technologie hat erheblichen Anwendungswert in der Mensch-Computer-Interaktion, Bildbearbeitung und Inhaltsverstehen.
RefCoCo val
CRIS
Refer-YouTube-VOS (2021 public validation)
GLEE-Pro
RefCOCO+ val
HyperSeg
RefCOCO+ test B
RefCOCO+ testA
LAVT
A2D Sentences
ACGA
RefCOCOg-val
MLCD-Seg-7B
J-HMDB
SgMg (Video-Swin-B)
DAVIS 2017 (val)
RefVOS
RefCOCOg-test
PolyFormer-L
RefCOCO testB
EVP
RefCOCO testA
PhraseCut
MDETR ENB3
RefCOCO
DETRIS
ReferIt
PolyFormer-L
Refer-YouTube-VOS
RefVOS-Human REs
CLEVR-Ref+
IEP-Ref (700K prog.)
G-Ref test B
A2Dre test
RefVos
G-Ref val
Referring Expressions for DAVIS 2016 & 2017
MUTR