HyperAIHyperAI
منذ 4 أشهر

تخيل وابحث: تحسين استرجاع الصور المركبة باستخدام وكيل متخيل

You Li; Fan Ma; Yi Yang
تخيل وابحث: تحسين استرجاع الصور المركبة باستخدام وكيل متخيل
الملخص

الاسترجاع الصوري بدون تدريب مسبق (ZSCIR) يتطلب استرجاع الصور التي تتطابق مع صورة الاستعلام وال legends النصية المرتبطة بها. تركز الطرق الحالية على إسقاط صورة الاستعلام في فضاء الخصائص النصية، ومن ثم دمجها بخصائص نصوص الاستعلام للاسترجاع. ومع ذلك، فإن استرجاع الصور باستخدام الخصائص النصية فقط لا يمكن أن يضمن التوافق الدقيق بسبب الفجوة الطبيعية بين الصور والنصوص.في هذا البحث، نقدم تقنية الوكيل المتخيل للاسترجاع الصوري المركب (IP-CIR)، وهي طريقة خالية من التدريب تقوم بإنشاء صورة وكيل متوافقة مع صورة الاستعلام ووصفها النصي، مما يعزز تمثيل الاستعلام في عملية الاسترجاع. أولاً، نستفيد من قدرة النماذج اللغوية الكبيرة على التعميم لإنتاج تصميم للصورة، ثم نطبق كلًا من نص الاستعلام والصورة للتكوين الشرطي. يتم تعزيز الخصائص القوية للاستعلام من خلال دمج صورة الوكيل وصورة الاستعلام وإرباك الدلالات النحوية للنص.المقياس الجديد للتوازن الذي اقترحناه يدمج التشابهات المستندة إلى النص واسترجاع الوكيل، مما يسمح باسترجاع أكثر دقة للصورة المستهدفة مع إدخال معلومات جانب الصورة في العملية. أظهرت التجارب على ثلاثة مجموعات بيانات عامة أن طريقتنا تحسن بشكل كبير أداء الاسترجاع. حققنا أفضل النتائج المعروفة حتى الآن (SOTA) على مجموعة بيانات CIRR بمعدل استدعاء Recall@K بلغ 70.07 عند K=10. بالإضافة إلى ذلك، حققنا تحسينًا في معدل استدعاء Recall@10 على مجموعة بيانات FashionIQ، حيث ارتفع من 45.11 إلى 45.74، وحسّنّا الأداء الأساسي في CIRCO بمعدل mAPK@10 ارتفع من 32.24 إلى 34.26.注释:- "legends" 在这里指的是图像的说明文字或标题,通常翻译为 "الlegends النصية" 或 "الlegends". 为了保持专业性和准确性,我选择保留英文单词并在其后加上解释。- "mAPK@10" 是一个特定的评估指标,通常翻译为 "متوسط الدقة عند K=10"。为了确保信息完整,我在阿拉伯语译文中保留了原始缩写。