HyperAIHyperAI
منذ 12 أيام

السرد البصري مع التوجيه الشمولي لبرمت بيرت الهرمي

{and Xianhui Liu, Jinjing Gu, Hanli Wang, Ruichao Fan}
الملخص

السرد البصري، الذي يهدف إلى إنتاج فقرة سردية تلقائيًا لملف صور، يظل أمرًا صعبًا نظرًا لتعقيد وتنوع محتوى ملفات الصور. علاوة على ذلك، تغطي ملفات الصور في المجال المفتوح طيفًا واسعًا من المواضيع، مما يؤدي إلى تباين كبير في المفردات وأنماط التعبير المستخدمة لوصف هذه الملفات. في هذا العمل، تم اقتراح إطار عمل جديد للسرد البصري يعتمد على نموذج المعلم والطالب مع توجيه شبهي-بيير (HBSG) على مستوى هرمي، لمعالجة التحديات المذكورة أعلاه. يتكون النموذج المعلم من مهام متزامنة اثنتين: أولًا، توليد الموضوع الخفي على مستوى الكلمة، وثانيًا، توليد الجملة الموجهة بالمعنى. تهدف المهمة الأولى إلى التنبؤ بالموضوع الخفي للسرد. وبما أن المعلومات الحقيقية للموضوع غير متوفرة، تم استخدام نموذج بيرت المدرب مسبقًا بناءً على المحتوى البصري والسرد المُعلَّق لاستخراج الموضوعات. ثم يتم استخلاص المتجه الموضوعي إلى نموذج مُصمم مسبقًا لتنبؤ الصورة-الموضوع. أما في مهمة توليد الجملة الموجهة بالمعنى، فقد تم استخدام HBSG لتحقيق غرضين. الأول هو تقليل تعقيد اللغة عبر المواضيع المختلفة، حيث تم تصميم مشفر يعتمد على الانتباه المشترك بين الرؤية والمعنى، لاستغلال الموضوعات الخفية لتفعيل نماذج لغوية مرتبطة بالموضوع. والثاني هو استخدام معنى الجملة كوحدة تدريس لغوية خارجية مباشرة. وأخيرًا، تم تصميم خسارة مساعدة لتحويل المعرفة اللغوية إلى نموذج توليد اللغة. أُجريت تجارب واسعة لتأكيد فعالية إطار HBSG، الذي تفوق على أحدث الأساليب المُقَدَّمة عند تقييمه على مجموعة بيانات VIST.

السرد البصري مع التوجيه الشمولي لبرمت بيرت الهرمي | أحدث الأوراق البحثية | HyperAI