إعادة بناء العبارات النصية في الصور

تثبيت (أي تحديد المواقع) للعبارات النصية الحرة والعشوائية في المحتوى البصري هو مشكلة صعبة ذات تطبيقات عديدة في التفاعل بين الإنسان والحاسوب وحل الإشارة بين الصورة والنص. قلة من القواعد البيانات توفر تثبيتًا صحيحًا للمواقع، لذا من المرغوب تعلم ذلك من بيانات بدون إشراف أو بإشراف قليل. نقترح نهجًا جديدًا يتعلم التثبيت بإعادة بناء العبارة المعطاة باستخدام آلية الانتباه، والتي يمكن أن تكون مخفية أو محسّنة مباشرة. أثناء التدريب، يقوم نهجنا بترميز العبارة باستخدام نموذج لغوي شبكي متكرر ثم يتعلم التركيز على المنطقة البصرية ذات الصلة لإعادة بناء العبارة المدخلة. في وقت الاختبار، يتم تقييم الانتباه الصحيح، أي التثبيت. إذا كان الإشراف بالتثبيت متاحًا، فيمكن تطبيقه مباشرة عبر خسارة على آلية الانتباه. نظهر فعالية نهجنا على قاعدة بيانات Flickr 30k Entities وReferItGame مع مستويات مختلفة من الإشراف، تتراوح من عدم وجود إشراف إلى الإشراف الجزئي والكامل. يحقق النموذج المشرف لدينا تحسنًا كبيرًا على الحالة السابقة للتقنية في كلتا القاعدتين البيانات.