Referring Expression Segmentation
Referring Expression Segmentation (RES) zielt darauf ab, spezifische Objektinstanzen in Bildern oder Videos durch linguistische Ausdrücke auf Pixel-Ebene zu annotieren. Diese Aufgabe erfordert, dass der referierende Ausdruck (RE) das Zielobjekt in der Szene oder im Dialog eindeutig identifiziert, um die Genauigkeit und Einzigartigkeit der Annotation zu gewährleisten. Diese Technologie hat erheblichen Anwendungswert in der Mensch-Computer-Interaktion, Bildbearbeitung und Inhaltsverstehen.
A2D Sentences
SgMg (Video-Swin-B)
A2Dre test
RefVos
CLEVR-Ref+
IEP-Ref (700K prog.)
DAVIS 2017 (val)
RefVOS
G-Ref test B
G-Ref val
J-HMDB
SgMg (Video-Swin-B)
PhraseCut
MDETR ENB3
RefCOCO
DETRIS
RefCOCO+ test B
RefCOCO testA
RefCOCO+ testA
HyperSeg
RefCOCO testB
EVP
RefCoCo val
CRIS
RefCOCO+ val
HyperSeg
RefCOCOg-test
UniLSeg-100
RefCOCOg-val
MLCD-Seg-7B
Refer-YouTube-VOS
RefVOS-Human REs
Refer-YouTube-VOS (2021 public validation)
GLEE-Pro
ReferIt
PolyFormer-L
Referring Expressions for DAVIS 2016 & 2017
MUTR