تجزئة الصورة المرجعية
تهدف عملية تقسيم الصور المرجعية (RIS، والتي تسمى أيضًا بالتقسيم المرجعي) إلى تقسيم الكائنات المستهدفة التي تتم الإشارة إليها من خلال تعبيرات اللغة الطبيعية. ومع ذلك، تعتمد الطرق السابقة على افتراض قوي مفاده أن الجملة يجب أن تصف كائنًا في صورة، وهو ما لا يحدث غالبًا في التطبيقات في العالم الحقيقي. لذلك، تفشل مثل هذه الأساليب عندما لا يشير التعبير إلى أي كائن أو إلى أكثر من كائن واحد.
الهدف من تقسيم الصورة المرجعية هو تقسيم المراجع من خلال تعبير اللغة الطبيعية. بسبب اختلاف خصائص البيانات بين النص والصور، فمن الصعب على الشبكة محاذاة النص وميزات مستوى البكسل بشكل جيد.