مُشَفِّر مُتَعَلِّق بِالرُّسُومِ التَّصْوِيرِيَّةِ الْهِيِّرَارْكِيَّةِ لِتَوْصِيفِ الْفُقَرَةِ الصُّورِيَّةِ
عندما نُخبر بفقرة طويلة عن صورة، نميل عادةً إلى تكوين "سيناريو ذهني" ضمني أولاً، ثم نلتزم به لإنشاء الفقرة. مستوحى من هذا المفهوم، نُزوّد نموذج التصريح بالفقرات الصورية القائم على المُشفّر-المُفكّك الحديث بقدرة مماثلة من خلال اقتراح نموذج التشفير-التفكيك الرئيسي للرسم البياني المكاني الهرمي (HSGED) لإنشاء فقرات متماسكة ومميزة. وبشكل خاص، نستخدم الرسم البياني المكاني للصورة كـ"سيناريو" لدمج معرفة دلالية غنية، وأهم من ذلك، القيود الهرمية داخل النموذج. وبالتحديد، نصمم شبكة عصبية متكررة للرسم البياني الجملة (SSG-RNN) لإنشاء مواضيع على مستوى المخططات الفرعية، والتي تُحدّد وتُوجّه شبكة عصبية متكررة للرسم البياني الكلمات (WSG-RNN) لإنشاء الجمل المقابلة. ونُقدّم انتباهًا غير متكررًا في SSG-RNN لزيادة احتمالية استخلاص المواضيع من المخططات الفرعية النادرة الوصف، ونُطبّق انتباهًا موروثًا في WSG-RNN لتمكين إنشاء جمل أكثر تأصيلًا باستخدام المواضيع المستخلصة، مما يؤدي إلى فقرات أكثر تميّزًا. كما نُقدّم أيضًا خسارة فعّالة على مستوى الجملة لتحفيز التسلسل الناتج من الجمل على أن يكون مشابهًا لتسلسل الفقرات الحقيقية (ground-truth). وقد تم التحقق من أداء HSGED على مجموعة بيانات الصور والفقرات من ستانفورد، وتبين أنه لا يحقق فقط أفضل أداء مُسجّل حتى الآن بـ 36.02 نقطة CIDEr-D، بل يُنتج أيضًا فقرات أكثر تماسكًا وميزة وفقًا لمجموعة متنوعة من المقاييس.