HyperAIHyperAI

Command Palette

Search for a command to run...

عندما تروي الصورة قصة: دور المعلومات البصرية والدلالية في إنشاء وصف باراجراف

Simon Dobnik Nikolai Ilinykh

الملخص

تُعدّ مهمة إنشاء وصف بصري متعدد الجملة مهمة صعبة، وتتطلب نموذجًا قويًا قادرًا على إنتاج فقرات مترابطة ودقيقة تصف العناصر البارزة في الصورة. نحن نجادل بأن استخدام مصادر متعددة من المعلومات يكون مفيدًا عند وصف المشاهد البصرية باستخدام تسلسلات طويلة. وتشمل هذه المصادر (أ) المعلومات الحسية، و(ب) المعلومات الدلالية (اللغوية) المتعلقة بكيفية وصف ما يوجد في الصورة. كما نقارن تأثير استخدام ميكانيكيتَي تجميع مختلفتين، إما على وسيلة واحدة أو على مزيج من الوسائط. ونُظهر أن النموذج الذي يستخدم كلا المدخلين البصري واللغوي يمكنه إنتاج فقرات دقيقة ومتنوعة عند دمجه مع آلية تجميع معينة. وتُظهر نتائج التقييم التلقائي والبشري أن تعلُّم دمج المعلومات الدلالية مع المحفزات البصرية داخل نموذج إنشاء الفقرات ليس أمرًا سهلاً، مما يثير مجموعة من الاقتراحات لتجارب مستقبلية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp