HyperAIHyperAI
منذ 16 أيام

زوم أفضل لرؤية أوضح: تحليل الإنسان والكائنات باستخدام شبكة زوم تلقائي هيراركية

{Liang-Chieh Chen, Fangting Xia, Peng Wang, Alan L. Yuille}
زوم أفضل لرؤية أوضح: تحليل الإنسان والكائنات باستخدام شبكة زوم تلقائي هيراركية
الملخص

تحليل الكائنات المفصّلة، مثل البشر والحيوانات، إلى أجزاء معنوية (مثل الجسم، الرأس، الأذرع، إلخ) من الصور الطبيعية يُعدّ مشكلة صعبة وجوهرية في رؤية الحاسوب. وتعتبر التغيرات الكبيرة في الحجم والموقع للكائنات وأجزائها المقابلة من أكبر التحديات. حتى الأخطاء المحدودة في تقدير الحجم والموقع ستفقد جودة الناتج الناتج عن التحليل وتؤدي إلى أخطاء في تفاصيل الحدود. ولحل هذه التحديات، نقترح نموذجًا يُسمى "شبكة التكبير التلقائي الهرمية" (HAZN) لتحليل أجزاء الكائنات، والذي يتكيف مع الحجم المحلي للكائنات وأجزائها. يتكوّن HAZN من سلسلة من اثنين من شبكات "التكبير التلقائي" (AZNs)، حيث تستخدم كل شبكة شبكة تلافيفية كاملة (Fully Convolutional Networks) لأداء مهمتين: (1) التنبؤ بمواقع ومقاييس كائنات معينة (في الشبكة الأولى) أو أجزائها (في الشبكة الثانية)؛ و(2) تقدير درجات الأجزاء للمناطق المتنبأ بها من الكائنات أو أجزائها. يمكن لنماذجنا التكيف بذكاء "بتكبير" (إعادة تعيين الحجم) للمناطق المتنبأ بها في الصورة إلى أحجام مناسبة لتحسين دقة التحليل.أجرينا تجارب واسعة على مجموعات بيانات PASCAL الخاصة بالأجزاء البشرية، والخيول، والأبقار. بالنسبة للبشر، تفوقت طريقة عملنا على أفضل النماذج الحالية بنسبة 5% في متوسط التداخل على التداخل (mIOU)، وتميّزت بشكل خاص في تقسيم الكائنات الصغيرة والأجزاء الصغيرة. وحققنا تحسينات مماثلة في تحليل الأبقار والخيول مقارنة بالطرق البديلة. باختصار، تُعدّ استراتيجيتنا التي تبدأ بتكبير الكائنات ثم تكبير أجزائها فعّالة جدًا. كما تتيح لنا معالجة مناطق مختلفة من الصورة بمقاييس مختلفة تلقائيًا، بحيث لا نحتاج، على سبيل المثال، إلى استنزاف الموارد الحسابية لتكبير الصورة بأكملها.