HyperAIHyperAI
منذ 17 أيام

تصنيف و استرجاع الصور الدقيق من خلال دمج السمات البصرية والسمات النصية المجمعة محليًا

Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez, Dimosthenis Karatzas
تصنيف و استرجاع الصور الدقيق من خلال دمج السمات البصرية والسمات النصية المجمعة محليًا
الملخص

تحتوي النصوص الموجودة داخل الصور على معاني عالية المستوى يمكن استغلالها لتحقيق فهم أعمق للصور. وبشكل خاص، يوفر وجود النص بحد ذاته محتوى توجيهي قوي ينبغي استخدامه لمعالجة مجموعة متنوعة من مهام الرؤية الحاسوبية مثل استرجاع الصور والتصنيف الدقيق والأسئلة البصرية. في هذه الورقة، نتناول مشكلة التصنيف الدقيق واسترجاع الصور من خلال الاستفادة من المعلومات النصية إلى جانب المؤشرات البصرية لفهم العلاقة الجوهرية الموجودة بين هذين النوعين من البيانات. تكمن الابتكار في النموذج المقترح في استخدام وصف PHOC لبناء مجموعة كلمات نصية، إلى جانب تشفير متجه فيشر الذي يلتقط البنية الشكلية للنص. ويُعد هذا النهج مُقدّماً تمثيلًا متعدد الوسائط أقوى لهذه المهمة، كما تُظهر تجاربنا أنه يحقق نتائج متقدمة على مستوى الحد الأقصى في مهامين مختلفين: التصنيف الدقيق واسترجاع الصور.