HyperAIHyperAI
منذ 17 أيام

نموذج كشف كائن مُحسَّن لتكوين رسم المشهد

{Mohamed F. Tolba, Howida A. Shedeed, Dina Khattab, Mohammad Essam}
الملخص

مع تطور الرؤية الحاسوبية، أصبحت حاجة فهم أعمق للتعامل مع مسائل أكثر تعقيدًا مثل استرجاع الصور ذات المعنى (Semantic Image Retrieval)، ووصف الصور (Image Captioning)، وفهم المشهد (Scene Understanding). كان فهم المشهد مشكلة مُدرَّسة منذ فترة طويلة نظرًا لتعقيدها ونقص تمثيل البيانات المناسب. ويشكل "مخطط المشهد" (Scene Graph) أحد أكثر تمثيلات البيانات قوةً، إذ يُمكّن من فهم أفضل لسياق المشهد. ويتمثل دور مخطط المشهد في ترميز الكائنات المُقدمة في المشهد، وصفاتها، بالإضافة إلى العلاقات المتبادلة بين هذه الكائنات. وبما أن مخطط المشهد أثبت كفاءته في المهام المعقدة، أصبحت آلية توليد مخططات المشهد تلقائيًا ضرورة حتمية. وقد تم إجراء أبحاث كبيرة للحصول على مخططات مشهد دقيقة باستخدام هياكل تعلم عميق مختلفة. ويشترك جميع هذه الهياكل المتنوعة في وحدة كشف الكائنات (Object Detection Module)، حيث يتم تحديد مواقع الكائنات أولًا في الصورة المدخلة. وفي هذا العمل، نقترح استخدام أحدث كاشفات الكائنات من عائلة YOLOv5 في مهمة توليد مخطط المشهد. وقد حقق النموذج المقترح YOLOv5x6 نتيجة متقدمة جدًا (State-of-the-Art) بقيمة 32.7 في متوسط الدقة المتوسطة (mean average precision) مقارنة بالدراسات السابقة. علاوةً على ذلك، يُقدّم البحث مراجعة مفصلة لكواشف الكائنات المختلفة المستخدمة في الأدبيات العلمية لغرض توليد مخططات المشهد.