HyperAIHyperAI

Command Palette

Search for a command to run...

منظر أولي لورقة YOLOv1: اليوم الذي رأى فيه YOLO العالم لأول مرة

في عام 2015، أحدثت نموذج YOLOv1 ثورة في مجال كشف الكائنات بفضل سرعته العالية ودقة أداءه، مُقدّمة نموذجًا موحدًا وفوريًا بدلًا من النماذج متعددة المراحل مثل R-CNN. بدلًا من استخدام خوارزمية اقتراح مناطق (Selective Search) ثم تحليل كل منطقة بمنفصل، ابتكرت YOLOv1 نموذجًا يُحلل الصورة دفعة واحدة، حيث تُقسّم الصورة إلى شبكة من 7×7 خلية (S=7)، وكل خلية مسؤولة عن اكتشاف الكائنات التي يقع مركزها فيها. لكل خلية، يتم تمثيل الناتج بـ "متجه هدف" طوله 25، يحتوي على 20 فئة (باستخدام one-hot encoding)، وثقة التنبؤ، بالإضافة إلى إحداثيات مركز الصندوق المحيط (x, y) وعرضه وارتفاعه (w, h)، مع تطبيع هذه القيم لتمثيل النسب بالنسبة للخلية. خلال التدريب، يُستخدم متجه هدف لكل خلية، بينما في التنبؤ، يُنتج كل خلية متجه تنبؤ طوله 30، لأن النموذج يتنبأ بـ 2 صناديق لكل خلية، مما يسمح باختيار الصندوق الأكثر ثقة. هذا التصميم المبتكر استدعى خوارزمية دالة خسارة مخصصة تجمع بين الخسارة التنبؤية للصندوق (MSE) والخسارة التصنيفية (Cross-Entropy)، مع معالجة متوازنة بين دقة التوقعات وثباتها. البنية الأساسية للنموذج تعتمد على شبكة عميقة من 24 طبقة تلافيفية (CNN)، تبدأ بطبقة تلافيفية بحجم 7×7 وتحدد 64 قناة، تليها طبقات متعددة من التلافيف والـ Leaky ReLU (بمعامل 0.1 لتجنب توقف التدفق في القيم السلبية)، مع تضمين طبقات تقليل حجم (MaxPool) عند نقاط محددة لخفض الأبعاد المكانية. تم تقسيم الشبكة إلى مراحل (Stages)، حيث تُقلل كل مرحلة الأبعاد المكانية بشكل تدريجي، حتى تصل إلى مصفوفة 1024×7×7. بعد ذلك، يتم تسطيح هذه المصفوفة وتمريرها عبر طبقتين كامنتين (Fully Connected)، الأولى بـ 4096 مُدخل، مع تطبيق Dropout (50%) لتجنب التعلم الزائد، والثانية تُنتج 1470 مخرجًا (30×7×7)، والتي تُعاد تشكيلها لاحقًا إلى شكل 30×7×7 لتمثيل التنبؤات. التنفيذ بـ PyTorch يُظهر دقة في محاكاة البنية الأصلية، حيث تم التحقق من تدفق البيانات عبر كل طبقة، مع التأكد من تطابق الأبعاد مع ما ورد في الورقة البحثية. النموذج يُمكن تطويره لاستخدام مُنَمَجات مُتقدمة مثل ResNet أو ViT بشرط مطابقة شكل المخرجات. كما يُمكن تدريبه من الصفر، لكنه يتطلب موارد حاسوبية كبيرة ووقتًا طويلاً، حسب ما ذكر المؤلفون (أسبوعان لتدريب مبدئي على ImageNet). يُعد YOLOv1 حجر الأساس لسلسلة نماذج YOLO، التي تطورت لاحقًا لتصبح من أسرع وأكثر النماذج دقة في كشف الكائنات، وتم تطوير نسخة أسرع (Fast YOLO) بـ 9 طبقات فقط، لكن التفاصيل المحددة لم تُنشر. النموذج يُمثل مثالًا ناجحًا على التوازن بين السرعة والدقة، ويُعد نقطة انطلاق مهمة في تطور الرؤية الحاسوبية الحديثة.

الروابط ذات الصلة