HyperAIHyperAI

Command Palette

Search for a command to run...

تصنيف و استرجاع الصور الدقيق من خلال دمج السمات البصرية والسمات النصية المجمعة محليًا

Andres Mafla Sounak Dey Ali Furkan Biten Lluis Gomez Dimosthenis Karatzas

الملخص

تحتوي النصوص الموجودة داخل الصور على معاني عالية المستوى يمكن استغلالها لتحقيق فهم أعمق للصور. وبشكل خاص، يوفر وجود النص بحد ذاته محتوى توجيهي قوي ينبغي استخدامه لمعالجة مجموعة متنوعة من مهام الرؤية الحاسوبية مثل استرجاع الصور والتصنيف الدقيق والأسئلة البصرية. في هذه الورقة، نتناول مشكلة التصنيف الدقيق واسترجاع الصور من خلال الاستفادة من المعلومات النصية إلى جانب المؤشرات البصرية لفهم العلاقة الجوهرية الموجودة بين هذين النوعين من البيانات. تكمن الابتكار في النموذج المقترح في استخدام وصف PHOC لبناء مجموعة كلمات نصية، إلى جانب تشفير متجه فيشر الذي يلتقط البنية الشكلية للنص. ويُعد هذا النهج مُقدّماً تمثيلًا متعدد الوسائط أقوى لهذه المهمة، كما تُظهر تجاربنا أنه يحقق نتائج متقدمة على مستوى الحد الأقصى في مهامين مختلفين: التصنيف الدقيق واسترجاع الصور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp