استرجاع الصور النصية المركبة بدون تدريب مسبق

في هذا البحث، نتناول مشكلة استرجاع الصور المركبة (CIR)، والتي تهدف إلى تدريب نموذج يمكنه دمج معلومات متعددة الأوضاع، مثل النصوص والصور، لاسترجاع الصور بدقة تطابق الاستفسار، مما يوسع قدرة المستخدم على التعبير. نقدم المساهمات التالية: (أ) نبدأ بخط أنابيب قابل للتوسيع لبناء مجموعات بيانات تلقائيًا لتدريب نموذج CIR، من خلال الاستفادة من مجموعة بيانات كبيرة تحتوي على أزواج صورة-نص، مثل مجموعة فرعية من LAION-5B؛ (ب) نقدم نموذج تجميع متكيف يستند إلى المحول (Transformer)، وهو TransAgg، الذي يستخدم آلية دمج بسيطة وفعالة لتجميع المعلومات بشكل متكيف من أوضاع مختلفة؛ (ج) نقوم بدراسات تقليصية واسعة النطاق للتحقيق في فائدة إجراء بناء البيانات المقترح لدينا، وفعالية المكونات الأساسية في TransAgg؛ (د) عند التقييم على مقاييس عامة متاحة للجمهور في سيناريو الصفر-الاطلاق (zero-shot scenario)، أي التدريب على مجموعات البيانات التي تم بناؤها تلقائيًا ثم إجراء الاستدلال مباشرة على مجموعات البيانات اللاحقة المستهدفة، مثل CIRR و FashionIQ، فإن النهج المقترح لدينا إما يحقق أداءً مماثلاً أو يتفوق بشكل كبير على النماذج الرائدة الحالية (SOTA). صفحة المشروع: https://code-kunkun.github.io/ZS-CIR/