HyperAIHyperAI
منذ 3 أشهر

نموذج مبني على Vision Transformer لوصف مجموعة من الصور كقصة

Zainy M. Malakan, Ghulam Mubashar Hassan, Ajmal Mian
نموذج مبني على Vision Transformer لوصف مجموعة من الصور كقصة
الملخص

السرد البصري هو عملية تكوين قصة مكوّنة من جمل متعددة من مجموعة من الصور. يُعدّ تضمين التباين البصري والمعلومات السياقية المُلتقطة داخل الصور المدخلة أحد أكثر الجوانب تحديًا في السرد البصري. ونتيجة لذلك، غالبًا ما تفتقر القصص المُكوّنة من مجموعة من الصور إلى الاتساق والصلة والعلاقة الدلالية. في هذه الورقة، نقترح نموذجًا جديدًا يعتمد على محول الرؤية (Vision Transformer) لوصف مجموعة من الصور كقصة واحدة. يُستخدَم النموذج المقترح لاستخراج السمات المميزة للصور المدخلة باستخدام محول الرؤية (ViT). أولاً، تُقسَّم الصور المدخلة إلى شرائح بحجم 16×16، ثم تُجمَع في ترميز خطي من الشريحة المسطحة. ويُعد التحويل من صورة واحدة إلى عدة شرائح صورية مُمثِّلًا للتنوع البصري للأنماط البصرية المدخلة. تُستخدم هذه السمات كمدخلات لنموذج LSTM ثنائي الاتجاه، الذي يُشكّل جزءًا من مشفر التسلسل. ويُمكن لهذا النموذج التقاط السياق السابق والمستقبلي لجميع شرائح الصور. ثم يتم تطبيق آلية انتباه (Attention Mechanism) لتعزيز القدرة التمييزية للبيانات المُدخلة إلى نموذج اللغة، أي نموذج Mogrifier-LSTM. وتم تقييم أداء النموذج المقترح باستخدام مجموعة بيانات السرد البصري (VIST)، وأظهرت النتائج أن النموذج المقترح يتفوّق على النماذج الحالية الأفضل في مجالها.