الخسارة اللوجستية للتدريب المسبق للغة والصورة

نُقدِّم خسارة زوجية بسيطة باستخدام الدالة اللوجستية (Sigmoid) لتدريب اللغة والصورة مسبقًا (SigLIP). على عكس التعلم التقابلية القياسي الذي يستخدم التطبيع بالدالة الأسية (softmax)، تعمل خسارة الدالة اللوجستية فقط على أزواج الصورة والنص، ولا تتطلب رؤية عامة لتشابه الأزواج لغرض التطبيع. وتوفر خسارة الدالة اللوجستية إمكانية توسيع حجم الدفعة (batch size) بشكل أكبر، مع أداء أفضل حتى في حجم دفعة صغير. وبالارتباط مع تقنية التخصيص المُغلق للصورة (Locked-image Tuning)، نُدرّب نموذج SigLiT باستخدام أربع شرائح TPUv4 فقط، ويحقق دقة تصل إلى 84.5% في اختبار ImageNet بدون تدريب مسبق (zero-shot) خلال يومين فقط. وتمكّن فصل حجم الدفعة عن دالة الخسارة من دراسة تأثير عدد الأمثلة مقابل عدد الأزواج، وكذلك نسبة العناصر السلبية إلى الموجبة. وأخيرًا، نُجَرّب توسيع حجم الدفعة إلى الحد الأقصى، حتى مليون، ونجد أن فوائد زيادة حجم الدفعة تتناقص بسرعة، بحيث يُصبح حجم دفعة معقول يبلغ 32 ألفًا كافيًا. ونُطلق نماذجنا على الموقع https://github.com/google-research/big_vision، ونأمل أن يُحفّز بحثنا على مزيد من الدراسات لتحسين جودة وكفاءة تدريب اللغة والصورة مسبقًا.