منذ 6 أشهر

الملخص

السرد البصري هو عملية تكوين قصة مكوّنة من جمل متعددة من مجموعة من الصور. يُعدّ تضمين التباين البصري والمعلومات السياقية المُلتقطة داخل الصور المدخلة أحد أكثر الجوانب تحديًا في السرد البصري. ونتيجة لذلك، غالبًا ما تفتقر القصص المُكوّنة من مجموعة من الصور إلى الاتساق والصلة والعلاقة الدلالية. في هذه الورقة، نقترح نموذجًا جديدًا يعتمد على محول الرؤية (Vision Transformer) لوصف مجموعة من الصور كقصة واحدة. يُستخدَم النموذج المقترح لاستخراج السمات المميزة للصور المدخلة باستخدام محول الرؤية (ViT). أولاً، تُقسَّم الصور المدخلة إلى شرائح بحجم 16×16، ثم تُجمَع في ترميز خطي من الشريحة المسطحة. ويُعد التحويل من صورة واحدة إلى عدة شرائح صورية مُمثِّلًا للتنوع البصري للأنماط البصرية المدخلة. تُستخدم هذه السمات كمدخلات لنموذج LSTM ثنائي الاتجاه، الذي يُشكّل جزءًا من مشفر التسلسل. ويُمكن لهذا النموذج التقاط السياق السابق والمستقبلي لجميع شرائح الصور. ثم يتم تطبيق آلية انتباه (Attention Mechanism) لتعزيز القدرة التمييزية للبيانات المُدخلة إلى نموذج اللغة، أي نموذج Mogrifier-LSTM. وتم تقييم أداء النموذج المقترح باستخدام مجموعة بيانات السرد البصري (VIST)، وأظهرت النتائج أن النموذج المقترح يتفوّق على النماذج الحالية الأفضل في مجالها.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار