HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 4 أشهر

السرد القصصي من تدفق صور باستخدام الرسوم البيانية للسينة

{Xuanjing Huang Qi Zhang Piji Li Zhongyu Wei Ruize Wang}

الملخص

تهدف القصص البصرية إلى إنشاء قصة من تدفق صور. تميل معظم الطرق الحالية إلى تمثيل الصور مباشرة باستخدام السمات عالية المستوى المستخرجة، وهي طريقة غير مباشرة وصعبة الفهم. نحن نجادل بأن تحويل كل صورة إلى تمثيل معنوي مبني على الرسوم البيانية، أي "رسمة المشهد"، التي تُشَكِّل بشكل صريح الكائنات والعلاقات المكتشفة داخل الصورة، سيكون مفيدًا في تمثيل الصور ووصفها. ولتحقيق هذا الهدف، نقترح معمارية جديدة قائمة على الرسوم البيانية للقصص البصرية من خلال نمذجة العلاقات على مستويين في رسمة المشهد. وبشكل خاص، على المستوى الداخلي للصورة، نستخدم شبكة توليف رسومية (GCN) لتعزيز تمثيلات المناطق الدقيقة المحلية للكائنات في رسمة المشهد. ولتمثيل التفاعل بين الصور بشكل أعمق، على المستوى بين الصور، نستخدم شبكة توليف زمنية (TCN) لتحسين تمثيلات المناطق على طول البُعد الزمني. ثم يتم إدخال التمثيلات المُدركة للعلاقات إلى وحدة وحدة التكرار المُتحكّمة (GRU) ذات آلية الانتباه لغرض إنشاء القصة. أجريت تجارب على مجموعة بيانات عامة للقصص البصرية. وتشير نتائج التقييم التلقائي والبشري إلى أن طريقتنا تحقق مستوى متقدمًا من الأداء.

المعايير القياسية

معيار قياسيالمنهجيةالمقاييس
visual-storytelling-on-vistSGVST
BLEU-4: 14.7
CIDEr: 9.8
METEOR: 35.8
ROUGE-L: 29.9

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp