HyperAIHyperAI
منذ 17 أيام

الاستدلال قبل الاسترجاع: سلسلة تفكير تأمليّة ذات مرحلة واحدة لاسترجاع صور مركّبة بدون تدريب ودون عينة صفرية

Yuanmin Tang, Xiaoting Qin, Jue Zhang, Jing Yu, Gaopeng Gou, Gang Xiong, Qingwei Ling, Saravan Rajmohan, Dongmei Zhang, Qi Wu
الاستدلال قبل الاسترجاع: سلسلة تفكير تأمليّة ذات مرحلة واحدة لاسترجاع صور مركّبة بدون تدريب ودون عينة صفرية
الملخص

تهدف الاسترجاع الصوري المُركّب (CIR) إلى استرجاع صور مستهدفة تشبه بشكل وثيق صورة مرجعية مع دمج تعديلات نصية محددة من قبل المستخدم، بهدف التقاط نية المستخدم بدقة أكبر. تُستخدم الطرق الحالية للـ CIR الصفرية الخالية من التدريب (ZS-CIR) بدون تدريب عادةً عملية ثنائية المراحل: حيث تُولَّد أولاً وصفة نصية للصورة المرجعية، ثم تُستخدم نماذج اللغة الكبيرة (LLMs) للتفكير الاستنتاجي للحصول على وصف مستهدف. ومع ذلك، تعاني هذه الطرق من فقدان تفاصيل بصرية حاسمة وقيود في القدرات الاستنتاجية، ما يؤدي إلى أداء استرجاع غير مثالي. لمعالجة هذه التحديات، نقترح طريقة جديدة، خالية من التدريب، ذات مرحلة واحدة، تُسمى "الاستدلال المتسلسل التأملي الأحادي المرحلة لـ ZS-CIR" (OSrCIR)، والتي تستخدم نماذج اللغة الكبيرة متعددة الوسائط (Multimodal Large Language Models) للحفاظ على المعلومات البصرية الأساسية ضمن عملية استنتاجية واحدة، مما يُزيل فقدان المعلومات الذي يُلاحظ في الطرق ثنائية المراحل. كما يُحسّن إطارنا "الاستدلال المتسلسل التأملي" (Reflective Chain-of-Thought) من دقة التفسير من خلال محاذاة نية التعديل مع المؤشرات السياقية المستمدة من الصور المرجعية. تحقق OSrCIR مكاسب في الأداء تتراوح بين 1.80% إلى 6.44% مقارنة بالطرق الحالية الخالية من التدريب عبر مهام متعددة، مُحققةً نتائج جديدة على مستوى الحد الأقصى (state-of-the-art) في مجال ZS-CIR، وتعزز من فعاليتها في التطبيقات المتعددة بين الرؤية واللغة. ستكون الشفرة المصدرية متاحة عبر الرابط: https://github.com/Pter61/osrcir2024/.

الاستدلال قبل الاسترجاع: سلسلة تفكير تأمليّة ذات مرحلة واحدة لاسترجاع صور مركّبة بدون تدريب ودون عينة صفرية | أحدث الأوراق البحثية | HyperAI