VISTA: تمثيل نصي مرئي للبحث متعدد الوسائط الشامل

يكتسب الاسترجاع متعدد الوسائط شعبية متزايدة في الممارسة العملية. ومع ذلك، فإن المحركات الحالية تتركز بشكل أساسي على النصوص، مما يفتقر إلى القدرة على معالجة المعلومات البصرية. وعلى الرغم من وجود نماذج متعددة الوسائط مثل CLIP، فإن الطرق الحالية محدودة بشدة في تمثيل البيانات النصية فقط أو الصورية فقط. في هذا العمل، نقدّم نموذج تضمين جديد يُسمى VISTA، مصممًا للاسترجاع متعدد الوسائط الشامل. يُعد هذا العمل مُساهمة تقنية في ثلاثة جوانب رئيسية. أولاً، نقدّم بنية مرنة تمدد نموذج النص القوي بقدرات فهم الصور من خلال إدخال تضمينات الرموز البصرية (visual token embeddings). ثانيًا، نطوّر استراتيجيتين لتكوين البيانات، تُنتج بيانات مركبة عالية الجودة من الصور والنصوص، مما يُسهل تدريب نموذج التضمين. ثالثًا، نقدّم خوارزمية تدريب متعددة المراحل: تبدأ بمحاذاة تضمينات الرموز البصرية مع نموذج التشفير النصي باستخدام كميات ضخمة من البيانات ذات التسمية الضعيفة، ثم تُطوّر القدرة على التمثيل متعدد الوسائط باستخدام البيانات المركبة المُولَّدة. في تجاربنا، حقق نموذج VISTA أداءً متفوقًا في مجموعة متنوعة من مهام الاسترجاع متعدد الوسائط، سواء في البيئات ذات "الصفر المُشغّل" (zero-shot) أو البيئات المُدرّبة بوضوح. يُتاح نموذجنا، وبياناتنا، وشفرة المصدر عبر الرابط: https://github.com/FlagOpen/FlagEmbedding.