مُحَدِّثٌ مُتَعَلِّمٌ: نموذج توليد يُوجَّه بالمنطق السليم للسرد البصري للقصص

تهدف مهمة السرد البصري (VST) إلى إنتاج فقرة متماسكة وعقلانية من خلال استخدام تدفق الصور كمدخل. على عكس الوصف (caption) الذي يُقدّم وصفًا مباشرًا وحرفيًا لمحتوى الصورة، فإن القصة في مهمة السرد البصري تميل إلى احتواء عدد كبير من المفاهيم التخيلية التي لا تظهر في الصورة نفسها. وهذا يتطلب من الوكيل الذكي التفكير والربط بين هذه المفاهيم التخيلية استنادًا إلى معرفة شائعة ضمنية، لإنتاج قصة منطقية تصف تدفق الصور. لذلك، في هذه الدراسة، نقدّم نموذجًا توليدياً يُوجهه المعرفة الشائعة، والذي يهدف إلى إدخال معرفة شائعة حاسمة من قاعدة معرفة خارجية لخدمة السرد البصري. يبدأ نهجنا باستخراج مجموعة من الرسوم البيانية المرشحة (knowledge graphs) من قاعدة المعرفة. ثم يتم اعتماد.Schema ترميز توجيهي واعٍ للرؤية، مصمم بعناية، لدمج المعرفة الشائعة الأكثر إفادة بشكل فعّال. علاوة على ذلك، نسعى إلى تحسين التشابه الدلالي داخل الناتج أثناء عملية التوليد، لتعزيز التماسك في النص المُنتَج. أظهرت النتائج أن نهجنا يمكنه التفوق على النظم الرائدة في مجالها بفارق كبير، حيث حقق تحسّناً نسبياً بنسبة 29٪ في مقياس CIDEr. وبإضافة معرفة شائعة ووظيفة هدف تعتمد على الترابط الدلالي، أصبحت القصص المُنتَجة أكثر تنوعًا وتماسكًا.