HyperAIHyperAI
منذ 18 أيام

LDRE: استنتاج متباين مبني على LLM وتوحيد لاسترجاع صور مركبة بدون عينات

{Changsheng Xu, WeiMing Dong, Shengsheng Qian, Dizhan Xue, Zhenyu Yang}
الملخص

لقد اكتسبت المُعالجة الصورية المُركبة الصفرية (ZS-CIR) اهتمامًا متزايدًا في السنوات الأخيرة، وهي تهدف إلى استرجاع صورة مستهدفة بناءً على استعلام يتكون من صورة مرجعية ونص تعديل، دون الحاجة إلى عينات تدريبية. وبشكل خاص، يصف نص التعديل الفرق بين الصورتين. لتنفيذ ZS-CIR، تُعتمد الطرق السائدة حاليًا على نماذج الصورة إلى النص المُدرّبة مسبقًا لتحويل الصورة والنص المُستعلم إلى نص واحد، ثم يتم تمريره إلى فضاء الميزة المشترك باستخدام نموذج CLIP لاسترجاع الصورة المستهدفة. ومع ذلك، تتجاهل هذه الطرق حقيقة أن ZS-CIR هي مهمة استرجاع ضبابية نموذجية، حيث لا يتم تحديد معاني الصورة المستهدفة بشكل صارم بواسطة الصورة المُستعلم والنص. لتجاوز هذه القيود، تُقترح في هذه الورقة طريقة تعتمد على نماذج لغوية كبيرة (LLM) دون تدريب، تُسمى الاستدلال المتفرّع والاندماج (LDRE)، لالتقاط طيف متنوع من المعاني الممكنة للنتيجة المُركبة. أولاً، نستخدم نموذجًا مُدرّبًا مسبقًا للوصف (captioning) لإنشاء وصفات كثيفة للصورة المرجعية، مع التركيز على جوانب معنوية مختلفة للصورة المرجعية. ثم نُوجه نماذج اللغة الكبيرة (LLMs) لإجراء استدلال تكويني متفرّع بناءً على هذه الوصفات الكثيفة ونص التعديل، بهدف استخلاص وصفات معدلة متعددة تغطي المعاني الممكنة للصورة المستهدفة المُركبة. وأخيرًا، نصمم آلية تجميع وصفات متفرعة لاستخلاص ميزة الوصف المندمج، التي تُوزّع بحسب درجات الترابط المعنوي، وتُستخدم لاحقًا في استرجاع الصورة المستهدفة ضمن فضاء الميزة الخاص بـ CLIP. أظهرت التجارب الواسعة على ثلاث مجموعات بيانات عامة أن الطريقة المقترحة LDRE تحقق أداءً جديدًا على مستوى الحد الأقصى (state-of-the-art).

LDRE: استنتاج متباين مبني على LLM وتوحيد لاسترجاع صور مركبة بدون عينات | أحدث الأوراق البحثية | HyperAI