VirTex: تعلّم التمثيلات البصرية من الملاحظات النصية

النهج الفعلي لمعظم مهام الرؤية الحاسوبية هو البدء من تمثيلات بصرية مُدرَّبة مسبقًا، والتي تُتعلَّم غالبًا عبر التدريب المراقب على مجموعة بيانات ImageNet. وقد استكشفت الطرق الحديثة التدريب المسبق غير المراقب لتوسيع نطاق التعلم إلى كميات هائلة من الصور غير المُعلَّمة. على النقيض من ذلك، نهدف إلى تعلُّم تمثيلات بصرية عالية الجودة من عدد أقل من الصور. ولتحقيق هذا الهدف، نعيد النظر في التدريب المسبق المراقب، ونبحث عن بدائل أكثر كفاءة من حيث البيانات مقارنةً بالتدريب القائم على التصنيف. نقترح نموذج VirTex — وهو منهج للتدريب المسبق يستخدم وصفًا دلاليًا كثيفًا (semantically dense captions) لتعلم التمثيلات البصرية. نُدرّب الشبكات التلافيفية من الصفر على مجموعة بيانات COCO Captions، ثم نُحولها إلى مهام التعرف السفلي، بما في ذلك تصنيف الصور، وكشف الكائنات، والتقسيم الحادّ (instance segmentation). وعلى جميع المهام، تُنتج VirTex تمثيلات تُوازي أو تفوق تلك التي تُتعلَّم على ImageNet — سواء عبر التدريب المراقب أو غير المراقب — رغم استخدامها لعدد يصل إلى عشرة أضعاف أقل من الصور.