التفصيل من التعبيرات اللغوية الطبيعية

في هذه الورقة، نتناول المشكلة الجديدة المتمثلة في تقسيم الصورة بناءً على تعبير بلغة طبيعية. هذا يختلف عن التقسيم الدلالي التقليدي لعدد محدد من الفئات الدلالية، مثل الجملة "رجلان جالسان على المقعد الأيمن" التي تتطلب تقسيم الرجلين فقط الموجودين على المقعد الأيمن وليس أي شخص آخر واقف أو جالس على مقعد آخر. كانت النهج السابقة المناسبة لهذه المهمة محدودة بمجموعة ثابتة من الفئات و/أو المناطق المستطيلة. لتقديم تقسيم بكسلات بدقة للتعبير اللغوي، نقترح نموذج شبكة متكررة ومتلافهة قابل للتدريب من النهاية إلى النهاية يقوم بتعلم معالجة المعلومات البصرية واللغوية بشكل مشترك. في نموذجنا، يتم استخدام شبكة LSTM المتكررة لترميز التعبير الإشاري إلى تمثيل متجهي، ويتم استخدام شبكة متلافهة بالكامل لاستخراج خريطة ميزات فضائية من الصورة وإنتاج خريطة استجابة فضائية للموضوع المستهدف. نوضح باستخدام مجموعة بيانات معيارية أن نموذجنا قادر على إنتاج مخرجات تقسيم ذات جودة عالية من التعبير باللغة الطبيعية، وأنه يتفوق بشكل كبير على الطرق الأساسية.