HyperAIHyperAI

Command Palette

Search for a command to run...

نموذج مبني على Vision Transformer لوصف مجموعة من الصور كقصة

Zainy M. Malakan Ghulam Mubashar Hassan Ajmal Mian

الملخص

السرد البصري هو عملية تكوين قصة مكوّنة من جمل متعددة من مجموعة من الصور. يُعدّ تضمين التباين البصري والمعلومات السياقية المُلتقطة داخل الصور المدخلة أحد أكثر الجوانب تحديًا في السرد البصري. ونتيجة لذلك، غالبًا ما تفتقر القصص المُكوّنة من مجموعة من الصور إلى الاتساق والصلة والعلاقة الدلالية. في هذه الورقة، نقترح نموذجًا جديدًا يعتمد على محول الرؤية (Vision Transformer) لوصف مجموعة من الصور كقصة واحدة. يُستخدَم النموذج المقترح لاستخراج السمات المميزة للصور المدخلة باستخدام محول الرؤية (ViT). أولاً، تُقسَّم الصور المدخلة إلى شرائح بحجم 16×16، ثم تُجمَع في ترميز خطي من الشريحة المسطحة. ويُعد التحويل من صورة واحدة إلى عدة شرائح صورية مُمثِّلًا للتنوع البصري للأنماط البصرية المدخلة. تُستخدم هذه السمات كمدخلات لنموذج LSTM ثنائي الاتجاه، الذي يُشكّل جزءًا من مشفر التسلسل. ويُمكن لهذا النموذج التقاط السياق السابق والمستقبلي لجميع شرائح الصور. ثم يتم تطبيق آلية انتباه (Attention Mechanism) لتعزيز القدرة التمييزية للبيانات المُدخلة إلى نموذج اللغة، أي نموذج Mogrifier-LSTM. وتم تقييم أداء النموذج المقترح باستخدام مجموعة بيانات السرد البصري (VIST)، وأظهرت النتائج أن النموذج المقترح يتفوّق على النماذج الحالية الأفضل في مجالها.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp