Referring Expression Segmentation
La segmentation d'expressions de référence vise à effectuer une annotation au niveau des pixels d'instances d'objets spécifiques dans des images ou des vidéos à travers des expressions linguistiques. Cette tâche nécessite que l'expression de référence (ER) puisse identifier de manière unique l'objet cible dans la scène ou le dialogue, garantissant ainsi la précision et l'unicité de l'annotation. Cette technologie présente une valeur d'application significative dans l'interaction homme-machine, l'édition d'images et la compréhension du contenu.
A2D Sentences
SgMg (Video-Swin-B)
A2Dre test
RefVos
CLEVR-Ref+
IEP-Ref (700K prog.)
DAVIS 2017 (val)
RefVOS
G-Ref test B
G-Ref val
J-HMDB
SgMg (Video-Swin-B)
PhraseCut
MDETR ENB3
RefCOCO
DETRIS
RefCOCO+ test B
RefCOCO testA
RefCOCO+ testA
HyperSeg
RefCOCO testB
EVP
RefCoCo val
CRIS
RefCOCO+ val
HyperSeg
RefCOCOg-test
UniLSeg-100
RefCOCOg-val
MLCD-Seg-7B
Refer-YouTube-VOS
RefVOS-Human REs
Refer-YouTube-VOS (2021 public validation)
GLEE-Pro
ReferIt
PolyFormer-L
Referring Expressions for DAVIS 2016 & 2017
MUTR