HyperAIHyperAI
منذ 11 أيام

السرد القصصي من تدفق صور باستخدام الرسوم البيانية للسينة

{Xuanjing Huang, Qi Zhang, Piji Li, Zhongyu Wei, Ruize Wang}
الملخص

تهدف القصص البصرية إلى إنشاء قصة من تدفق صور. تميل معظم الطرق الحالية إلى تمثيل الصور مباشرة باستخدام السمات عالية المستوى المستخرجة، وهي طريقة غير مباشرة وصعبة الفهم. نحن نجادل بأن تحويل كل صورة إلى تمثيل معنوي مبني على الرسوم البيانية، أي "رسمة المشهد"، التي تُشَكِّل بشكل صريح الكائنات والعلاقات المكتشفة داخل الصورة، سيكون مفيدًا في تمثيل الصور ووصفها. ولتحقيق هذا الهدف، نقترح معمارية جديدة قائمة على الرسوم البيانية للقصص البصرية من خلال نمذجة العلاقات على مستويين في رسمة المشهد. وبشكل خاص، على المستوى الداخلي للصورة، نستخدم شبكة توليف رسومية (GCN) لتعزيز تمثيلات المناطق الدقيقة المحلية للكائنات في رسمة المشهد. ولتمثيل التفاعل بين الصور بشكل أعمق، على المستوى بين الصور، نستخدم شبكة توليف زمنية (TCN) لتحسين تمثيلات المناطق على طول البُعد الزمني. ثم يتم إدخال التمثيلات المُدركة للعلاقات إلى وحدة وحدة التكرار المُتحكّمة (GRU) ذات آلية الانتباه لغرض إنشاء القصة. أجريت تجارب على مجموعة بيانات عامة للقصص البصرية. وتشير نتائج التقييم التلقائي والبشري إلى أن طريقتنا تحقق مستوى متقدمًا من الأداء.

السرد القصصي من تدفق صور باستخدام الرسوم البيانية للسينة | أحدث الأوراق البحثية | HyperAI