منذ 17 أيام
دمج الصور والنصوص لقاعدة بيانات UPMC Food-101 باستخدام BERT وCNNs
{and Riccardo La Grassa, Nicola Landro, Gianmarco Ria, Ignazio Gallo}

الملخص
يصبح العالم الرقمي الحديث أكثر تعددية الوسائط تدريجيًا. عند تصفح الإنترنت، غالبًا ما تُربط الصور بالنصوص، مما يجعل مشاكل التصنيف التي تشمل هذين النوعين من الوسائط شائعة جدًا.في هذه الورقة البحثية، نستعرض التصنيف متعدد الوسائط باستخدام المعلومات النصية والتمثيلات البصرية للمفهوم نفسه.نستكشف طريقتين أساسيتين رئيسيتين لدمج الوسائط متعددة، ونُعدّلهما باستخدام تقنيات التجميع (stacking) لتحسين التعامل مع هذا النوع من المشكلات.في هذا السياق، نستخدم مجموعة البيانات UPMC Food-101، وهي مجموعة بيانات متعددة الوسائط صعبة ومشوّشة تمثل بشكل جيد فئة مشكلات التعدد الوسائطي هذه.أظهرت نتائجنا أن التقنية المقترحة للدمج المبكر، المدمجة مع نهج مبني على التجميع، تتفوق على أحدث النتائج المنشورة (state of the art) على مجموعة البيانات المستخدمة.