HyperAIHyperAI

Command Palette

Search for a command to run...

CoLLM: نموذج لغوي كبير للبحث عن الصور المركبة

Chuong Huynh Jinyu Yang Ashish Tawari Mubarak Shah Son Tran Raffay Hamid Trishul Chilimbi Abhinav Shrivastava

الملخص

استرجاع الصور المُركَّبة (CIR) هو مهمة معقدة تهدف إلى استرجاع الصور بناءً على استعلام متعدد الوسائط. ويتكون البيانات التدريبية النموذجية من ثلاثيات تحتوي على صورة مرجعية، ووصف نصي للتعديلات المرغوبة، والصورة المستهدفة، وهي بيانات مكلفة وطويلة الأمد في جمعها. وقد أدى نقص بيانات CIR إلى ظهور نماذج بدون تدريب مسبق (zero-shot) تستخدم ثلاثيات مُصَنَّعة أو تستفيد من نماذج الرؤية واللغة (VLMs) التي تعتمد على أزواج الصورة-الوصف المُجمعة من الإنترنت. ومع ذلك، تمتلك هذه الأساليب قيودًا كبيرة: فالمُثلَّثات المُصَنَّعة تعاني من حجم محدود، ونقص في التنوّع، ونصوص تعديل غير طبيعية، بينما تعيق أزواج الصورة-الوصف تعلم التضمين المشترك للاستعلام المتعدد الوسائط بسبب غياب بيانات الثلاثيات. علاوةً على ذلك، تواجه النماذج الحالية صعوبات في التعامل مع نصوص تعديل معقدة ودقيقة تتطلب دمجًا متقدمًا وفهمًا عميقًا للوسائط البصرية واللغوية. نقدم في هذا العمل إطارًا متكاملًا يُسمى CoLLM، والذي يعالج بشكل فعّال هذه القيود. يُولِّد نهجنا ثلاثيات بشكل فوري من أزواج الصورة-الوصف، مما يمكّن التدريب المُراقب دون الحاجة إلى تسمية يدوية. كما نستفيد من نماذج اللغة الكبيرة (LLMs) لتوليد تضمينات مشتركة للصور المرجعية ونصوص التعديل، مما يُسهّل تكاملًا متعدد الوسائط أعمق. بالإضافة إلى ذلك، نقدّم مجموعة بيانات كبيرة بعنوان CIR متعددة النصوص (MTCIR)، تضم 3.4 مليون عينة، ونُعدّل المعايير الحالية لتقييم CIR (CIRR وFashion-IQ) لتحسين موثوقية التقييم. تُظهر النتائج التجريبية أن CoLLM تحقق أداءً متفوّقًا على مستوى الحالة الحالية عبر عدة معايير وبيئات لـ CIR. كما تُظهر MTCIR نتائج تنافسية، مع تحسين يصل إلى 15٪ في الأداء. وتوفر المعايير المُعدّلة مقاييس تقييم أكثر موثوقية للنماذج الخاصة بـ CIR، ما يسهم في تقدم هذا المجال المهم.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp