HyperAIHyperAI
منذ 2 أشهر

الدلالات النصية الموجهة بالموقع لتدريب الرؤية واللغة

Alex Jinpeng Wang; Pan Zhou; Mike Zheng Shou; Shuicheng Yan
الدلالات النصية الموجهة بالموقع لتدريب الرؤية واللغة
الملخص

أظهر التدريب المسبق للرؤية واللغة (VLP) قدرات واعدة في مواءمة أزواج الصور والنصوص، مما يسهل مجموعة واسعة من مهام التعلم متعددة الوسائط. ومع ذلك، نلاحظ أن نماذج VLP غالباً ما تفتقر إلى القدرة على التثبيت البصري / تحديد الموقع (visual grounding/localization)، وهي مهمة حاسمة للكثير من المهام اللاحقة مثل الاستدلال البصري. في هذا العمل، نقترح نموذج جديد للإرشاد الموضع-الموجه (PTP) لتعزيز قدرة التثبيت البصري لنماذج التعلم متعددة الوسائط التي تم تدريبها باستخدام VLP. بصفة خاصة، في مرحلة VLP، يقوم PTP بتقسيم الصورة إلى $N\times N$ كتل، ويحدد الأشياء في كل كتلة من خلال الكاشف الشائع للأجسام المستخدم في VLP. ثم يعيد صياغة مهمة التثبيت البصري إلى مشكلة ملء الفراغات بناءً على PTP، وذلك بتشجيع النموذج على التنبؤ بالأشياء الموجودة في الكتل المعطاة أو تقدير الكتل الخاصة بالشيء المعطى، مثل ملء "P" أو "O" في جملة PTP "الكتلة P تحتوي على O". هذه الآلية تحسن قدرة التثبيت البصري لنماذج VLP وبالتالي تساعد هذه النماذج على التعامل بشكل أفضل مع مختلف المهام اللاحقة. من خلال إدخال PTP إلى عدة إطارات رائدة لنماذج VLP، نلاحظ تحسينات كبيرة ومتسقة عبر هياكل النماذج النموذجية للتعلم متعدد الوسائط وبعض المقاييس، مثل استرجاع Flickr30K بدون تدريب (+4.8 في معدل الاستدعاء@1) بالنسبة لنموذج ViLT \cite{vilt} الأساسي، وكتابة العناوين لـ COCO (+5.3 في CIDEr) بالنسبة لنموذج BLIP \cite{blip} الرائد. بالإضافة إلى ذلك، يحقق PTP نتائج مقاربة مع طرق الكشف عن الأجسام، وهو أسرع بكثير في سرعة الاستدلال لأن PTP يتخلص من كاشف الأجسام أثناء الاستدلال بينما لا يمكن للأخير ذلك. سيتم إطلاق شفرتنا وأوزاننا المدربة مسبقاً على الرابط \url{https://github.com/sail-sg/ptp}.

الدلالات النصية الموجهة بالموقع لتدريب الرؤية واللغة | أحدث الأوراق البحثية | HyperAI