HyperAIHyperAI
منذ 15 أيام

فيستا: تجميع الرؤية والنصوص المكانية للبحث عبر الوسائط

Mengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang
فيستا: تجميع الرؤية والنصوص المكانية للبحث عبر الوسائط
الملخص

يُعتبر المظهر البصري أهم مؤشر لفهم الصور في مهام الاسترجاع عبر الوسائط، في حين يمكن أن يوفر في بعض الأحيان النص المكاني الظاهر في الصور معلومات قيمة لفهم الدلالات البصرية. تتجاهل معظم الطرق الحالية للاسترجاع عبر الوسائط استخدام معلومات النص المكاني، وعند إدماج هذه المعلومات مباشرة قد يؤدي ذلك إلى تدهور الأداء في السيناريوهات التي لا تحتوي على نص مكاني. ولحل هذه المشكلة، نقترح بنية موحدة قائمة على نموذج الترانسفورمر (Transformer) لدمج جميع سيناريوهات الاسترجاع عبر الوسائط ضمن إطار موحد يُسمى ViSTA (Vision and Scene Text Aggregation). بشكل محدد، يستخدم ViSTA كتل الترانسفورمر لترميز مباشرة لقطع الصورة ودمج تمثيلات النص المكاني، بهدف تعلم تمثيل بصري مُجمَّع مناسب للاسترجاع عبر الوسائط. ولمعالجة مشكلة غياب النص المكاني، نقترح منهجية جديدة لدمج التمثيلات تعتمد على "رمز دمج" (fusion token)، بحيث يتم تبادل المعلومات الضرورية من النص المكاني فقط عبر هذا الرمز، مع التركيز على أهم الميزات في كل وسائط. ولتعزيز تمثيل الوسائط البصرية بشكل أكبر، نطور خسارة تعلم تناقضية مزدوجة (dual contrastive learning losses) لدمج كل من أزواج الصورة-النص وأزواج النص-الدمج في فضاء مشترك عبر الوسائط. مقارنة بالطرق الحالية، يمكن 통ظ ViSTA دمج دلالات النص المكاني ذات الصلة مع المظهر البصري، مما يؤدي إلى تحسين النتائج في كل من السيناريوهات التي تفتقر إلى النص المكاني والسيناريوهات التي تراعيه. تُظهر النتائج التجريبية أن ViSTA تتفوق على الطرق الأخرى بنسبة لا تقل عن 8.4% في مقياس التذكّر عند الترتيب الأول (Recall@1) في مهام الاسترجاع التي تراعي النص المكاني. كما تُظهر ViSTA أداءً أفضل من أحدث الطرق التي لا تأخذ النص المكاني بعين الاعتبار على مجموعتي بيانات Flicker30K وMSCOCO، مع تسريع لا يقل عن ثلاث مرات في مرحلة الاستدلال، مما يؤكد فعالية الإطار المقترح.

فيستا: تجميع الرؤية والنصوص المكانية للبحث عبر الوسائط | أحدث الأوراق البحثية | HyperAI