HyperAIHyperAI
منذ 12 أيام

عندما تروي الصورة قصة: دور المعلومات البصرية والدلالية في إنشاء وصف باراجراف

{Simon Dobnik, Nikolai Ilinykh}
عندما تروي الصورة قصة: دور المعلومات البصرية والدلالية في إنشاء وصف باراجراف
الملخص

تُعدّ مهمة إنشاء وصف بصري متعدد الجملة مهمة صعبة، وتتطلب نموذجًا قويًا قادرًا على إنتاج فقرات مترابطة ودقيقة تصف العناصر البارزة في الصورة. نحن نجادل بأن استخدام مصادر متعددة من المعلومات يكون مفيدًا عند وصف المشاهد البصرية باستخدام تسلسلات طويلة. وتشمل هذه المصادر (أ) المعلومات الحسية، و(ب) المعلومات الدلالية (اللغوية) المتعلقة بكيفية وصف ما يوجد في الصورة. كما نقارن تأثير استخدام ميكانيكيتَي تجميع مختلفتين، إما على وسيلة واحدة أو على مزيج من الوسائط. ونُظهر أن النموذج الذي يستخدم كلا المدخلين البصري واللغوي يمكنه إنتاج فقرات دقيقة ومتنوعة عند دمجه مع آلية تجميع معينة. وتُظهر نتائج التقييم التلقائي والبشري أن تعلُّم دمج المعلومات الدلالية مع المحفزات البصرية داخل نموذج إنشاء الفقرات ليس أمرًا سهلاً، مما يثير مجموعة من الاقتراحات لتجارب مستقبلية.

عندما تروي الصورة قصة: دور المعلومات البصرية والدلالية في إنشاء وصف باراجراف | أحدث الأوراق البحثية | HyperAI