HyperAIHyperAI

Command Palette

Search for a command to run...

دمج الصور والنصوص لقاعدة بيانات UPMC Food-101 باستخدام BERT وCNNs

and Riccardo La Grassa Nicola Landro Gianmarco Ria Ignazio Gallo

الملخص

يصبح العالم الرقمي الحديث أكثر تعددية الوسائط تدريجيًا. عند تصفح الإنترنت، غالبًا ما تُربط الصور بالنصوص، مما يجعل مشاكل التصنيف التي تشمل هذين النوعين من الوسائط شائعة جدًا.في هذه الورقة البحثية، نستعرض التصنيف متعدد الوسائط باستخدام المعلومات النصية والتمثيلات البصرية للمفهوم نفسه.نستكشف طريقتين أساسيتين رئيسيتين لدمج الوسائط متعددة، ونُعدّلهما باستخدام تقنيات التجميع (stacking) لتحسين التعامل مع هذا النوع من المشكلات.في هذا السياق، نستخدم مجموعة البيانات UPMC Food-101، وهي مجموعة بيانات متعددة الوسائط صعبة ومشوّشة تمثل بشكل جيد فئة مشكلات التعدد الوسائطي هذه.أظهرت نتائجنا أن التقنية المقترحة للدمج المبكر، المدمجة مع نهج مبني على التجميع، تتفوق على أحدث النتائج المنشورة (state of the art) على مجموعة البيانات المستخدمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp