HyperAIHyperAI

Command Palette

Search for a command to run...

LDRE: استنتاج متباين مبني على LLM وتوحيد لاسترجاع صور مركبة بدون عينات

Changsheng Xu WeiMing Dong Shengsheng Qian Dizhan Xue Zhenyu Yang

الملخص

لقد اكتسبت المُعالجة الصورية المُركبة الصفرية (ZS-CIR) اهتمامًا متزايدًا في السنوات الأخيرة، وهي تهدف إلى استرجاع صورة مستهدفة بناءً على استعلام يتكون من صورة مرجعية ونص تعديل، دون الحاجة إلى عينات تدريبية. وبشكل خاص، يصف نص التعديل الفرق بين الصورتين. لتنفيذ ZS-CIR، تُعتمد الطرق السائدة حاليًا على نماذج الصورة إلى النص المُدرّبة مسبقًا لتحويل الصورة والنص المُستعلم إلى نص واحد، ثم يتم تمريره إلى فضاء الميزة المشترك باستخدام نموذج CLIP لاسترجاع الصورة المستهدفة. ومع ذلك، تتجاهل هذه الطرق حقيقة أن ZS-CIR هي مهمة استرجاع ضبابية نموذجية، حيث لا يتم تحديد معاني الصورة المستهدفة بشكل صارم بواسطة الصورة المُستعلم والنص. لتجاوز هذه القيود، تُقترح في هذه الورقة طريقة تعتمد على نماذج لغوية كبيرة (LLM) دون تدريب، تُسمى الاستدلال المتفرّع والاندماج (LDRE)، لالتقاط طيف متنوع من المعاني الممكنة للنتيجة المُركبة. أولاً، نستخدم نموذجًا مُدرّبًا مسبقًا للوصف (captioning) لإنشاء وصفات كثيفة للصورة المرجعية، مع التركيز على جوانب معنوية مختلفة للصورة المرجعية. ثم نُوجه نماذج اللغة الكبيرة (LLMs) لإجراء استدلال تكويني متفرّع بناءً على هذه الوصفات الكثيفة ونص التعديل، بهدف استخلاص وصفات معدلة متعددة تغطي المعاني الممكنة للصورة المستهدفة المُركبة. وأخيرًا، نصمم آلية تجميع وصفات متفرعة لاستخلاص ميزة الوصف المندمج، التي تُوزّع بحسب درجات الترابط المعنوي، وتُستخدم لاحقًا في استرجاع الصورة المستهدفة ضمن فضاء الميزة الخاص بـ CLIP. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات عامة أن الطريقة المقترحة LDRE تحقق أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
LDRE: استنتاج متباين مبني على LLM وتوحيد لاسترجاع صور مركبة بدون عينات | مستندات | HyperAI