Referenzausdruckssegmentierung
Referring Expression Segmentation (RES) zielt darauf ab, spezifische Objektinstanzen in Bildern oder Videos durch linguistische Ausdrücke auf Pixel-Ebene zu annotieren. Diese Aufgabe erfordert, dass der referierende Ausdruck (RE) das Zielobjekt in der Szene oder im Dialog eindeutig identifiziert, um die Genauigkeit und Einzigartigkeit der Annotation zu gewährleisten. Diese Technologie hat erheblichen Anwendungswert in der Mensch-Computer-Interaktion, Bildbearbeitung und Inhaltsverstehen.
RefCoCo val
CRIS
Refer-YouTube-VOS (2021 public validation)
GLEE-Pro
RefCOCO+ val
HyperSeg
RefCOCO+ testA
LAVT
RefCOCO+ test B
A2D Sentences
ACGA
J-HMDB
SgMg (Video-Swin-B)
RefCOCOg-val
MLCD-Seg-7B
DAVIS 2017 (val)
RefVOS
RefCOCOg-test
PolyFormer-L
RefCOCO testA
RefCOCO testB
EVP
PhraseCut
MDETR ENB3
RefCOCO
DETRIS
ReferIt
PolyFormer-L
Refer-YouTube-VOS
RefVOS-Human REs
Referring Expressions for DAVIS 2016 & 2017
MUTR
A2Dre test
RefVos
CLEVR-Ref+
IEP-Ref (700K prog.)
G-Ref val
G-Ref test B