HyperAIHyperAI
منذ 16 أيام

RLIPv2: التوسع السريع للتدريب المسبق للغة والصورة ذات العلاقة

Hangjie Yuan, Shiwei Zhang, Xiang Wang, Samuel Albanie, Yining Pan, Tao Feng, Jianwen Jiang, Dong Ni, Yingya Zhang, Deli Zhao
RLIPv2: التوسع السريع للتدريب المسبق للغة والصورة ذات العلاقة
الملخص

تهدف التدريب المسبق للغة والصورة ذات العلاقة (RLIP) إلى محاذاة تمثيلات الرؤية مع النصوص ذات العلاقة، مما يعزز قدرة الاستدلال العلاقة في المهام المتعلقة بمعالجة الصور الحاسوبية. ومع ذلك، يُعوق تطوير RLIPv1 بسبب التقارب البطيء لهيكل RLIPv1، بالإضافة إلى ندرة بيانات الرسوم البيانية للمشاهد الحالية، ما يجعل توسيع نطاق RLIPv1 أمرًا صعبًا. في هذا البحث، نقترح RLIPv2، وهو نموذج يتوافق بسرعة يُمكّن من توسيع التدريب المسبق للعلاقة إلى بيانات رسم بياني للمنظر مُعدّة بطرق افتراضية على نطاق واسع. ولتمكين التوسع السريع، يُقدّم RLIPv2 آلية تسمى دمج اللغة والصورة غير المتوازنة (ALIF)، التي تُسهّل دمجًا عبر الوسائط المُتعددة مبكرًا وعميقًا، مع طبقات ترميز لغويّة مُفرّقة. يؤدي ALIF إلى أداء مماثل أو أفضل من RLIPv1 في جزء ضئيل من الوقت المطلوب للتدريب المسبق والضبط الدقيق. وللحصول على بيانات الرسوم البيانية للمشاهد على نطاق واسع، نوسع مجموعات بيانات كشف الكائنات بملصقات علاقات حرة الشكل من خلال إدخال مُنشئ وصف (مثل BLIP) ومُعلّق العلاقة المصمَّم. يُخصّص مُعلّق العلاقة النصوص المتعلقة بالعلاقة التي يولدها BLIP إلى أزواج من المناطق، مما يُمكّن من التدريب المسبق للعلاقة على نطاق أكبر. من خلال تجارب واسعة أُجريت على كشف التفاعل بين الإنسان والكائن وإنشاء الرسوم البيانية للمشاهد، يُظهر RLIPv2 أداءً يُعدّ الأفضل في الوقت الراهن على ثلاث معايير في ظروف التدريب الكامل، والتدريب القليل، والتدريب الصفر. بشكل ملحوظ، يحقق أكبر نموذج RLIPv2 23.29mAP على HICO-DET دون أي ضبط دقيق، و32.22mAP باستخدام 1% من البيانات، و45.09mAP باستخدام 100% من البيانات. تم إتاحة الكود والنماذج للجمهور عبر الرابط: https://github.com/JacobYuan7/RLIPv2.

RLIPv2: التوسع السريع للتدريب المسبق للغة والصورة ذات العلاقة | أحدث الأوراق البحثية | HyperAI