موكا: التدريب المستمر الواعي بالطريقة يُنتج تضمينات ثنائية الاتجاه متعددة الوسائط أفضل

نماذج التضمين متعددة الوسائط، التي تم بناؤها على أساس نماذج الرؤية واللغة السببية (VLMs)، أظهرت وعودًا في مهام مختلفة. ومع ذلك، تواجه النهج الحالية ثلاثة تحديات رئيسية: استخدام الانتباه السببي في نوى نماذج VLM غير مثالي للمهام التضمينية؛ مشاكل قابلية التوسع بسبب الاعتماد على بيانات عالية الجودة ومترابطة ومصحوبة بتصنيفات لتعلم المقارنة؛ وتنوع محدود في أهداف التدريب والبيانات. لمعالجة هذه القضايا، نقترح MoCa، وهو إطار عمل من مرحلتين لتحويل النماذج VLM المدربة مسبقًا إلى نماذج تضمين متعددة الوسائط ثنائية الاتجاه فعالة. المرحلة الأولى، وهي التدريب المستمر المدرك للوسائط (Modality-aware Continual Pre-training)، تقدم هدف إعادة بناء مشترك يزيل الضوضاء من المدخلات النصية والبصرية المتداخلة في آن واحد، مما يعزز الاستدلال ثنائي الاتجاه الذي يعتمد على السياق. المرحلة الثانية، وهي التحسين الدقيق المقارن غير المتجانس (Heterogeneous Contrastive Fine-tuning)، تستفيد من البيانات متعددة الوسائط الغنية بالمعنى والمتنوعة التي تتجاوز الأزواج البصرية-النصية البسيطة لتعزيز التعميم والتوافق. يتم معالجة التحديات المذكورة من خلال تقديم انتباه ثنائي الاتجاه عبر التدريب المستمر، وتوفير قابلية توسع فعالة مع قواعد بيانات ضخمة غير مصحوبة بتصنيفات عبر أهداف إعادة البناء المشتركة، واستخدام بيانات متعددة الوسائط متنوعة لتحقيق تمثيل أكثر صلابة. تظهر التجارب أن MoCa يحسن الأداء بشكل مستمر عبر مقاييس MMEB و ViDoRe-v2، ويحقق نتائج جديدة رائدة في المجال، كما أنه يظهر قابلية توسع قوية مع حجم النموذج وبيانات التدريب على MMEB.