Segmentation d'expression de référence
La segmentation d'expressions de référence vise à effectuer une annotation au niveau des pixels d'instances d'objets spécifiques dans des images ou des vidéos à travers des expressions linguistiques. Cette tâche nécessite que l'expression de référence (ER) puisse identifier de manière unique l'objet cible dans la scène ou le dialogue, garantissant ainsi la précision et l'unicité de l'annotation. Cette technologie présente une valeur d'application significative dans l'interaction homme-machine, l'édition d'images et la compréhension du contenu.
RefCoCo val
CRIS
Refer-YouTube-VOS (2021 public validation)
GLEE-Pro
RefCOCO+ val
HyperSeg
RefCOCO+ testA
LAVT
RefCOCO+ test B
A2D Sentences
ACGA
J-HMDB
SgMg (Video-Swin-B)
RefCOCOg-val
MLCD-Seg-7B
DAVIS 2017 (val)
RefVOS
RefCOCOg-test
PolyFormer-L
RefCOCO testA
RefCOCO testB
EVP
PhraseCut
MDETR ENB3
RefCOCO
DETRIS
ReferIt
PolyFormer-L
Refer-YouTube-VOS
RefVOS-Human REs
Referring Expressions for DAVIS 2016 & 2017
MUTR
A2Dre test
RefVos
CLEVR-Ref+
IEP-Ref (700K prog.)
G-Ref val
G-Ref test B