HyperAIHyperAI

Command Palette

Search for a command to run...

إخفاء وسرد: تعلم جسر تدفقات الصور لسرد القصص البصرية

Yunjae Jung Dahun Kim Sanghyun Woo Kyungsu Kim Sungjin Kim In So Kweon

الملخص

السرد البصري هو مهمة تُنشئ قصة قصيرة بناءً على تدفق صور. على عكس التسمية البصرية الحالية، يهدف السرد إلى تضمين ليس فقط وصفًا واقعيًا، بل أيضًا سردًا بشريًا ودلالات معنوية. ومع ذلك، يحتوي مجموعة بيانات VIST فقط على عدد صغير وثابت من الصور لكل قصة. وبالتالي، يكمن التحدي الرئيسي في السرد البصري في ملء الفجوة البصرية بين الصور باستخدام سرد خيالي وخيالي. في هذه الورقة، نقترح تعلُّمًا صريحًا لتخيل سرد قصصي يُسند الفجوة البصرية. أثناء التدريب، يتم حذف صورة واحدة أو أكثر عشوائيًا من المكدس المدخل، ونُدرّب الشبكة على إنتاج قصة كاملة مُعقولة حتى مع غياب صورة أو أكثر. علاوةً على ذلك، نقترح نموذجًا يُسمى "إخفاء وسرد" (hide-and-tell) مخصصًا للسرد البصري، والذي صُمّم لتعلم العلاقات غير المحلية عبر تدفقات الصور، وتحسين نماذج RNN التقليدية. في التجارب، نُظهر أن مخططنا "إخفاء وسرد" وتصميم الشبكة فعّالان حقًا في السرد القصصي، وأن نموذجنا يتفوّق على الطرق الرائدة السابقة من حيث المقاييس التلقائية. وأخيرًا، نُظهر جودة تعلُّم القدرة على استكمال السرد القصصي عبر الفجوات البصرية بشكل نوعي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
إخفاء وسرد: تعلم جسر تدفقات الصور لسرد القصص البصرية | مستندات | HyperAI