HyperAIHyperAI
منذ 17 أيام

CoLLM: نموذج لغوي كبير للبحث عن الصور المركبة

Chuong Huynh, Jinyu Yang, Ashish Tawari, Mubarak Shah, Son Tran, Raffay Hamid, Trishul Chilimbi, Abhinav Shrivastava
CoLLM: نموذج لغوي كبير للبحث عن الصور المركبة
الملخص

استرجاع الصور المُركَّبة (CIR) هو مهمة معقدة تهدف إلى استرجاع الصور بناءً على استعلام متعدد الوسائط. ويتكون البيانات التدريبية النموذجية من ثلاثيات تحتوي على صورة مرجعية، ووصف نصي للتعديلات المرغوبة، والصورة المستهدفة، وهي بيانات مكلفة وطويلة الأمد في جمعها. وقد أدى نقص بيانات CIR إلى ظهور نماذج بدون تدريب مسبق (zero-shot) تستخدم ثلاثيات مُصَنَّعة أو تستفيد من نماذج الرؤية واللغة (VLMs) التي تعتمد على أزواج الصورة-الوصف المُجمعة من الإنترنت. ومع ذلك، تمتلك هذه الأساليب قيودًا كبيرة: فالمُثلَّثات المُصَنَّعة تعاني من حجم محدود، ونقص في التنوّع، ونصوص تعديل غير طبيعية، بينما تعيق أزواج الصورة-الوصف تعلم التضمين المشترك للاستعلام المتعدد الوسائط بسبب غياب بيانات الثلاثيات. علاوةً على ذلك، تواجه النماذج الحالية صعوبات في التعامل مع نصوص تعديل معقدة ودقيقة تتطلب دمجًا متقدمًا وفهمًا عميقًا للوسائط البصرية واللغوية. نقدم في هذا العمل إطارًا متكاملًا يُسمى CoLLM، والذي يعالج بشكل فعّال هذه القيود. يُولِّد نهجنا ثلاثيات بشكل فوري من أزواج الصورة-الوصف، مما يمكّن التدريب المُراقب دون الحاجة إلى تسمية يدوية. كما نستفيد من نماذج اللغة الكبيرة (LLMs) لتوليد تضمينات مشتركة للصور المرجعية ونصوص التعديل، مما يُسهّل تكاملًا متعدد الوسائط أعمق. بالإضافة إلى ذلك، نقدّم مجموعة بيانات كبيرة بعنوان CIR متعددة النصوص (MTCIR)، تضم 3.4 مليون عينة، ونُعدّل المعايير الحالية لتقييم CIR (CIRR وFashion-IQ) لتحسين موثوقية التقييم. تُظهر النتائج التجريبية أن CoLLM تحقق أداءً متفوّقًا على مستوى الحالة الحالية عبر عدة معايير وبيئات لـ CIR. كما تُظهر MTCIR نتائج تنافسية، مع تحسين يصل إلى 15٪ في الأداء. وتوفر المعايير المُعدّلة مقاييس تقييم أكثر موثوقية للنماذج الخاصة بـ CIR، ما يسهم في تقدم هذا المجال المهم.

CoLLM: نموذج لغوي كبير للبحث عن الصور المركبة | أحدث الأوراق البحثية | HyperAI