منذ 6 أشهر

الملخص

يهدف مهام السرد البصري (VIST) إلى إنتاج قصص منطقية وطبيعية ومتسلسلة تتماشى مع تدفق الصور كمدخلات. وعلى الرغم من تحقيق العديد من نماذج التعلم العميق نتائج واعدة، إلا أن معظمها لا يستخدم مباشرة معلومات المشاعر الواردة في القصص. في هذا البحث، نقترح نموذجًا توليديًا يراعي المشاعر لمهام السرد البصري يُسمى SentiStory. ويعتمد SentiStory على وحدة استخراج المشاعر متعددة الطبقات (MLSEM). فلكل تدفق صور معطى، توفر الطبقة العليا مشاعر خشنة لكنها دقيقة، بينما تستخرج الطبقة الدنيا من MLSEM مشاعر دقيقة لكنها غالبًا ما تكون غير موثوقة. وتحدد هاتان الطبقتان بشكل استراتيجي لتكوين مفاهيم مشاعر بصرية مترابطة وغنية تُستخدم في مهمة VIST. وأظهرت نتائج التقييمات التلقائية والبشرية أن SentiStory، بفضل MLSEM، يحقق تحسنًا في إنتاج قصص أكثر تماسكًا وطبيعة بشرية.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار