HyperAIHyperAI
منذ 11 أيام

VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة

Pengchuan Zhang, Xiujun Li, Xiaowei Hu, Jianwei Yang, Lei Zhang, Lijuan Wang, Yejin Choi, Jianfeng Gao
VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة
الملخص

تُقدّم هذه الورقة دراسة مفصلة لتحسين التمثيلات البصرية المُستخدمة في المهام المتعددة بين الرؤية واللغة (VL)، وتطوير نموذج مُحسّن للكشف عن الكائنات يُوفّر تمثيلات مركزية على الكائنات في الصور. مقارنةً بالنموذج الأكثر شيوعًا من نوع \emph{من الأسفل إلى الأعلى ومن الأعلى إلى الأسفل} \cite{anderson2018bottom}، فإن النموذج الجديد أكبر حجمًا، وأُعدّ بشكل أفضل لمهام الرؤية واللغة، وتم تدريبه مسبقًا على مجموعات تدريب كبيرة جدًا تدمج عدة مجموعات بيانات معتمدة علنًا للكشف عن الكائنات. وبذلك، يمكنه إنتاج تمثيلات لعدد أكبر من الكائنات والمعاني البصرية. في حين ركّزت الأبحاث السابقة في مجال الرؤية واللغة بشكل رئيسي على تحسين نماذج دمج الرؤية واللغة، وتركت تحسين نموذج الكشف عن الكائنات دون اهتمام، نُظهر في هذه الدراسة أن الخصائص البصرية تُعدّ عاملًا مؤثرًا بشكل كبير في نماذج الرؤية واللغة. في تجاربنا، نُدخل الخصائص البصرية الناتجة عن النموذج الجديد للكشف عن الكائنات إلى نموذج دمج VL مبني على مُحول (Transformer) يُسمّى \oscar \cite{li2020oscar}، ونستخدم منهجية مُحسّنة \short\ لتدريب النموذج مسبقًا وتحسينه لمهام VL المُستقبلية على نطاق واسع. تُظهر النتائج أن الخصائص البصرية الجديدة تُحسّن بشكل ملحوظ الأداء في جميع مهام VL، وتُحقّق نتائجًا جديدة قياسية على سبعة معايير عامة. وسوف نُطلق النموذج الجديد للكشف عن الكائنات للجمهور.

VinVL: إعادة النظر في التمثيلات البصرية في نماذج الرؤية واللغة | أحدث الأوراق البحثية | HyperAI