HyperAIHyperAI
منذ 2 أشهر

توسيع تعلم تمثيلات البصر وربط اللغة بالبصر باستخدام الإشراف النصي الضوضائي

Chao Jia; Yinfei Yang; Ye Xia; Yi-Ting Chen; Zarana Parekh; Hieu Pham; Quoc V. Le; Yunhsuan Sung; Zhen Li; Tom Duerig
توسيع تعلم تمثيلات البصر وربط اللغة بالبصر باستخدام الإشراف النصي الضوضائي
الملخص

التمثيلات المسبقة التدريب أصبحت ضرورية للكثير من مهام معالجة اللغة الطبيعية ومهام الإدراك. بينما انتقل تعلم التمثيلات في معالجة اللغة الطبيعية إلى التدريب على النصوص الخام دون الحاجة إلى توضيح بشري، لا تزال التمثيلات البصرية والبصرية-اللغوية تعتمد بشكل كبير على مجموعات بيانات تم اختيارها بعناية والتي تكون باهظة الثمن أو تتطلب معرفة خبراء. بالنسبة للتطبيقات البصرية، يتم تعلم معظم التمثيلات باستخدام مجموعات بيانات تحتوي على تصنيفات صريحة مثل ImageNet أو OpenImages. أما بالنسبة للبصر-اللغة، فإن مجموعات البيانات الشائعة مثل Conceptual Captions، MSCOCO، أو CLIP كلها تتضمن عملية جمع بيانات (ونقح) غير بسيطة. يحد هذا العملية الباهظة الثمن من حجم مجموعات البيانات وبالتالي يعرقل توسيع نطاق نماذج التدريب. في هذه الورقة البحثية، نستفيد من مجموعة بيانات ضخمة تتكون من أكثر من مليار زوج من النصوص البديلة للصور (alt-text pairs)، والتي تم الحصول عليها دون خطوات فلترة أو معالجة ما بعد باهظة الثمن في مجموعة البيانات Conceptual Captions. يتعلم هيكل مشفر ثنائي بسيط كيفية تناسق التمثيلات البصرية واللغوية للأزواج الصورية والنصية باستخدام خسارة تباينية (contrastive loss). نوضح أن حجم مجموعتنا يمكن أن يعوض عن الضوضاء فيها ويؤدي إلى تمثيلات رائدة حتى مع مثل هذا المخطط التعليمي البسيط. يصل أداء تمثيلنا البصري إلى مستويات قوية عند نقله إلى مهام تصنيف مثل ImageNet و VTAB. كما أن التناسق بين التمثيلات البصرية واللغوية يمكّن من تصنيف الصور بدون تدريب سابق (zero-shot image classification) ويحقق أيضًا أفضل النتائج الرائدة في مقاييس استرجاع الصورة-النص لـ Flickr30K و MSCOCO، حتى عند المقارنة بنماذج العبور الانتباهي الأكثر تعقيدًا (cross-attention models). بالإضافة إلى ذلك، تمكن هذه التمثيلات من البحث عبر الأنظمة المختلفة باستخدام استعلامات نصية معقدة واستعلامات نص + صورة.

توسيع تعلم تمثيلات البصر وربط اللغة بالبصر باستخدام الإشراف النصي الضوضائي | أحدث الأوراق البحثية | HyperAI