شبكة التفكيك الانعكاسي لوصف الصور

تركز أحدث طرق تسمية الصور في الغالب على تحسين الخصائص البصرية، بينما لم يُولَ اهتمام كافٍ لاستخدام الخصائص الذاتية للغة لتعزيز أداء التسمية. في هذا البحث، نوضح أن التماسك اللفظي بين الكلمات ونظام الجملة النحوي مهم أيضًا لإنتاج صور ذات جودة عالية مع تسميات مناسبة. وفقًا للإطار التقليدي للمشفر-المفكك (encoder-decoder)، نقترح شبكة فك التشفير الانعكاسية (Reflective Decoding Network - RDN) لتسمية الصور، والتي تعزز الارتباط الطويل بين الكلمات وإدراك المواقع في مفكك التسميات. يتعلم نموذجنا التعاون في التركيز على الخصائص البصرية والنصية في الوقت نفسه، وإدراك موقع كل كلمة نسبيًا في الجملة لتحقيق أقصى قدر من المعلومات التي يتم تسليمها في التسمية المولدة. نقيم فعالية شبكتنا الانعكاسية لفك التشفير (RDN) على مجموعات بيانات تسمية الصور COCO ونحقق أداءً أفضل من الطرق السابقة. تكشف التجارب الإضافية أن نهجنا له ميزة خاصة في الحالات الصعبة التي تتضمن مشاهد معقدة يجب وصفها بالتسميات.