استرجاع الكائنات اللغوية الطبيعية

في هذا البحث، نتناول مهمة استرجاع الكائنات باستخدام اللغة الطبيعية، وهي تتمثل في تحديد موقع الكائن المستهدف داخل صورة معينة بناءً على استعلام باللغة الطبيعية عن هذا الكائن. تختلف مهمة استرجاع الكائنات باستخدام اللغة الطبيعية عن مهمة استرجاع الصور النصية، حيث أنها تتضمن معلومات مكانية حول الكائنات داخل المشهد وسياق المشهد العالمي. لمعالجة هذه المشكلة، نقترح نموذجًا جديدًا يُسمى شبكة التكرار السياق المكاني (Spatial Context Recurrent ConvNet - SCRC) كدالة تقييم للصناديق المرشحة لاسترجاع الكائنات، حيث يتم دمج التكوينات المكانية والمعلومات السياقية العالمية للمشهد في الشبكة. يقوم نموذجنا بمعالجة النص الاستعلامي، والوصفاء المحلية للصورة، والتكوينات المكانية والميزات السياقية العالمية من خلال شبكة تكرارية، ويخرج احتمال النص الاستعلامي مشروطًا بكل صندوق مرشح كتقييم للصندوق، ويمكنه نقل المعرفة البصرية-اللغوية من مجال الوصف الصوري إلى مهمتنا. تظهر النتائج التجريبية أن طريقتنا تستفيد بشكل فعال من المعلومات المحلية والعالمية على حد سواء، وتتفوق بشكل كبير على الطرق الأساسية السابقة في مختلف البيانات والمواقف، ويمكنها استغلال قواعد بيانات كبيرة الحجم في الرؤية واللغة لنقل المعرفة.