دراسة تجريبية لـ CLIP في البحث عن الأشخاص بناءً على النصوص

البحث عن الأشخاص بناءً على النص (TBPS) يهدف إلى استرجاع صور الأشخاص باستخدام وصف بلغة طبيعية. مؤخرًا، أظهرت نموذج التدريب المسبق للصورة واللغة المقارنة (CLIP)، وهو نموذج تدريب مسبق كبير متعدد الوسائط، أداءً ملحوظًا في مجموعة متنوعة من المهام اللاحقة المتعددة الوسائط بفضل قدرتها القوية على تعلم الدلالات المتعددة الوسائط. يعتبر البحث عن الأشخاص بناءً على النص (TBPS) مهمة استرجاع متعدد الوسائط دقيقة ومفصلة، وهي أيضًا تواجه ارتفاعًا في البحوث المتعلقة بـ CLIP. لاستكشاف إمكانات نماذج التدريب المسبق للصورة واللغة في المهام اللاحقة لـ TBPS، تقوم هذه الورقة بأول محاولة شاملة لدراسة تجريبية لـ CLIP في TBPS، مما يساهم في تقديم أساس قوي ومباشر وتدريجي لـ TBPS-CLIP للمجتمع العلمي لـ TBPS. نعيد النظر في اعتبارات تصميم حاسمة تحت CLIP، بما في ذلك زيادة البيانات ودالة الخسارة. يمكن للنموذج، مع التصميمات المذكورة أعلاه والحيل العملية للتدريب، تحقيق أداء مرضٍ دون الحاجة إلى أي وحدات معقدة. كما نجري تجارب الاستكشاف لـ TBPS-CLIP في تعميم النموذج وضغط النموذج، مما يثبت فعالية TBPS-CLIP من جوانب مختلفة. يتوقع أن توفر هذه الدراسة رؤى تجريبية وتسلط الضوء على البحوث المستقبلية المتعلقة بـ CLIP في مجال البحث عن الأشخاص بناءً على النص (TBPS).