HyperAIHyperAI
منذ 19 أيام

تحتاج فقط إلى النظر إلى تسلسل واحد: إعادة التفكير في المحولات في الرؤية من خلال الكشف عن الكائنات

Yuxin Fang, Bencheng Liao, Xinggang Wang, Jiemin Fang, Jiyang Qi, Rui Wu, Jianwei Niu, Wenyu Liu
تحتاج فقط إلى النظر إلى تسلسل واحد: إعادة التفكير في المحولات في الرؤية من خلال الكشف عن الكائنات
الملخص

هل يمكن لنموذج Transformer إجراء التعرف على الكائنات والمناطق ثنائية الأبعاد من منظور تسلسلي-تسلسلي خالص، مع معرفة محدودة بالبنية الفضائية ثنائية الأبعاد؟ وللإجابة على هذا السؤال، نقدّم نموذج You Only Look at One Sequence (YOLOS)، وهو سلسلة من نماذج كشف الكائنات تعتمد على نموذج Vision Transformer الأصلي، مع أقل عدد ممكن من التعديلات، وبدون افتراضات أولية عن المناطق، أو مُدخلات توجيهية (inductive biases) متعلقة بالمهام المستهدفة. وجدنا أن نماذج YOLOS المُدرّبة مسبقًا على مجموعة بيانات ImageNet-1k المتوسطة الحجم، تُظهر أداءً تنافسيًا جدًا على معيار كشف الكائنات الشهير COCO، على سبيل المثال، يمكن لنموذج YOLOS-Base الذي تم اعتماده مباشرة من بنية BERT-Base تحقيق تقييم مساحة الصناديق (box AP) قدره 42.0 على مجموعة التحقق (val) من COCO. كما نناقش في هذا العمل التأثيرات والقيود الحالية لخطط التدريب المسبق واستراتيجيات توسيع النموذج بالنسبة لنموذج Transformer في مجال الرؤية، من خلال إطار YOLOS. يمكن الاطلاع على الكود والنماذج المُدرّبة مسبقًا عبر الرابط: https://github.com/hustvl/YOLOS.