الترميز التوافقي لل مواضيع الجملة لتقديم فقرات الصور

توليد فقرة الصورة هو مهمة إنتاج قصة متماسكة (غالبًا فقرة) تصف المحتوى البصري لصورة. ومع ذلك، فإن هذه المشكلة ليست بسيطة خاصة عندما يكون هناك عدة نقاط وصفية ومتنوعة يجب مراعاتها عند توليد الفقرة، وهو ما يحدث غالبًا في الصور الحقيقية. السؤال المشروع هو كيف يمكن حصر هذه النقاط/المواضيع التي تستحق الذكر من صورة، ثم وصف الصورة من موضوع إلى آخر ولكن بشكل شامل مع بنية متماسكة. في هذا البحث، نقدم تصميمًا جديدًا --- الترميز التلقائي الإقليمي باستخدام الشبكات العصبية المتلافهة (Convolutional Auto-Encoding - CAE) الذي يستخدم بشكل خالص إطار الترميز التلقائي المتلافه والمعكوس-متلافه للنمذجة الموضوعية على مستوى الخصائص الإقليمية للصورة. بالإضافة إلى ذلك، نقترح هندسة جديدة تُعرف باسم CAE زائد الذاكرة طويلة المدى قصيرة المدى (CAE-LSTM)، والتي تدمج بطريقة جديدة المواضيع المستفادة لدعم توليد الفقرات. من الناحية التقنية، يعتمد CAE-LSTM على إطار عمل متعدد المستويات لتوليد الفقرات باستخدام LSTM مع آلية الانتباه. يلتقط LSTM على مستوى الفقرة الارتباط بين الجمل داخل الفقرة، بينما LSTM على مستوى الجملة يتم استخدامه لتوليد جملة واحدة مشروطة بكل موضوع تم استخراجه. أجريت تجارب واسعة النطاق على مجموعة بيانات فقرات الصور من جامعة ستانفورد، وأبلغ عن نتائج أفضل عند مقارنتها بالطرق الرائدة حاليًا. وبشكل أكثر إثارة للإعجاب، يزيد CAE-LSTM من أداء CIDEr من 20.93٪ إلى 25.15٪.