HyperAIHyperAI

Command Palette

Search for a command to run...

SentiStory: نموذج توليدي متعدد الطبقات يراعي المشاعر للسرد البصري

Jianwei Niu Xuefeng Liu Wei Chen

الملخص

يهدف مهام السرد البصري (VIST) إلى إنتاج قصص منطقية وطبيعية ومتسلسلة تتماشى مع تدفق الصور كمدخلات. وعلى الرغم من تحقيق العديد من نماذج التعلم العميق نتائج واعدة، إلا أن معظمها لا يستخدم مباشرة معلومات المشاعر الواردة في القصص. في هذا البحث، نقترح نموذجًا توليديًا يراعي المشاعر لمهام السرد البصري يُسمى SentiStory. ويعتمد SentiStory على وحدة استخراج المشاعر متعددة الطبقات (MLSEM). فلكل تدفق صور معطى، توفر الطبقة العليا مشاعر خشنة لكنها دقيقة، بينما تستخرج الطبقة الدنيا من MLSEM مشاعر دقيقة لكنها غالبًا ما تكون غير موثوقة. وتحدد هاتان الطبقتان بشكل استراتيجي لتكوين مفاهيم مشاعر بصرية مترابطة وغنية تُستخدم في مهمة VIST. وأظهرت نتائج التقييمات التلقائية والبشرية أن SentiStory، بفضل MLSEM، يحقق تحسنًا في إنتاج قصص أكثر تماسكًا وطبيعة بشرية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp