الملخص

استرجاع الصور المُركَّبة (CIR) هو مهمة معقدة تهدف إلى استرجاع الصور بناءً على استعلام متعدد الوسائط. ويتكون البيانات التدريبية النموذجية من ثلاثيات تحتوي على صورة مرجعية، ووصف نصي للتعديلات المرغوبة، والصورة المستهدفة، وهي بيانات مكلفة وطويلة الأمد في جمعها. وقد أدى نقص بيانات CIR إلى ظهور نماذج بدون تدريب مسبق (zero-shot) تستخدم ثلاثيات مُصَنَّعة أو تستفيد من نماذج الرؤية واللغة (VLMs) التي تعتمد على أزواج الصورة-الوصف المُجمعة من الإنترنت. ومع ذلك، تمتلك هذه الأساليب قيودًا كبيرة: فالمُثلَّثات المُصَنَّعة تعاني من حجم محدود، ونقص في التنوّع، ونصوص تعديل غير طبيعية، بينما تعيق أزواج الصورة-الوصف تعلم التضمين المشترك للاستعلام المتعدد الوسائط بسبب غياب بيانات الثلاثيات. علاوةً على ذلك، تواجه النماذج الحالية صعوبات في التعامل مع نصوص تعديل معقدة ودقيقة تتطلب دمجًا متقدمًا وفهمًا عميقًا للوسائط البصرية واللغوية. نقدم في هذا العمل إطارًا متكاملًا يُسمى CoLLM، والذي يعالج بشكل فعّال هذه القيود. يُولِّد نهجنا ثلاثيات بشكل فوري من أزواج الصورة-الوصف، مما يمكّن التدريب المُراقب دون الحاجة إلى تسمية يدوية. كما نستفيد من نماذج اللغة الكبيرة (LLMs) لتوليد تضمينات مشتركة للصور المرجعية ونصوص التعديل، مما يُسهّل تكاملًا متعدد الوسائط أعمق. بالإضافة إلى ذلك، نقدّم مجموعة بيانات كبيرة بعنوان CIR متعددة النصوص (MTCIR)، تضم 3.4 مليون عينة، ونُعدّل المعايير الحالية لتقييم CIR (CIRR وFashion-IQ) لتحسين موثوقية التقييم. تُظهر النتائج التجريبية أن CoLLM تحقق أداءً متفوّقًا على مستوى الحالة الحالية عبر عدة معايير وبيئات لـ CIR. كما تُظهر MTCIR نتائج تنافسية، مع تحسين يصل إلى 15٪ في الأداء. وتوفر المعايير المُعدّلة مقاييس تقييم أكثر موثوقية للنماذج الخاصة بـ CIR، ما يسهم في تقدم هذا المجال المهم.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

CoLLM: نموذج لغوي كبير للبحث عن الصور المركبة

Chuong Huynh Jinyu Yang Ashish Tawari Mubarak Shah Son Tran Raffay Hamid Trishul Chilimbi Abhinav Shrivastava

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CoLLM: نموذج لغوي كبير للبحث عن الصور المركبة

Chuong Huynh Jinyu Yang Ashish Tawari Mubarak Shah Son Tran Raffay Hamid Trishul Chilimbi Abhinav Shrivastava

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

CoLLM: نموذج لغوي كبير للبحث عن الصور المركبة

Chuong Huynh Jinyu Yang Ashish Tawari Mubarak Shah Son Tran Raffay Hamid Trishul Chilimbi Abhinav Shrivastava

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters