Verweisende Bildsegmentierung
Ziel der Referring Image Segmentation (RIS, auch Referring Segmentation genannt) ist die Segmentierung der Zielobjekte, auf die durch natürliche Sprachausdrücke verwiesen wird. Bisherige Methoden basieren jedoch auf der starken Annahme, dass ein Satz ein Objekt in einem Bild beschreiben muss, was in realen Anwendungen oft nicht der Fall ist. Daher schlagen solche Methoden fehl, wenn sich der Ausdruck auf kein Objekt oder auf mehr als ein Objekt bezieht.
Das Ziel der referenziellen Bildsegmentierung besteht darin, Referenten durch einen natürlichen Sprachausdruck zu segmentieren. Aufgrund der unterschiedlichen Dateneigenschaften zwischen Text und Bildern ist es für das Netzwerk schwierig, Text- und Pixelebenenfunktionen gut aufeinander abzustimmen.