HyperAIHyperAI
منذ 16 أيام

SentiStory: نموذج توليدي متعدد الطبقات يراعي المشاعر للسرد البصري

{Jianwei Niu, Xuefeng Liu, Wei Chen}
الملخص

يهدف مهام السرد البصري (VIST) إلى إنتاج قصص منطقية وطبيعية ومتسلسلة تتماشى مع تدفق الصور كمدخلات. وعلى الرغم من تحقيق العديد من نماذج التعلم العميق نتائج واعدة، إلا أن معظمها لا يستخدم مباشرة معلومات المشاعر الواردة في القصص. في هذا البحث، نقترح نموذجًا توليديًا يراعي المشاعر لمهام السرد البصري يُسمى SentiStory. ويعتمد SentiStory على وحدة استخراج المشاعر متعددة الطبقات (MLSEM). فلكل تدفق صور معطى، توفر الطبقة العليا مشاعر خشنة لكنها دقيقة، بينما تستخرج الطبقة الدنيا من MLSEM مشاعر دقيقة لكنها غالبًا ما تكون غير موثوقة. وتحدد هاتان الطبقتان بشكل استراتيجي لتكوين مفاهيم مشاعر بصرية مترابطة وغنية تُستخدم في مهمة VIST. وأظهرت نتائج التقييمات التلقائية والبشرية أن SentiStory، بفضل MLSEM، يحقق تحسنًا في إنتاج قصص أكثر تماسكًا وطبيعة بشرية.

SentiStory: نموذج توليدي متعدد الطبقات يراعي المشاعر للسرد البصري | أحدث الأوراق البحثية | HyperAI