HyperAIHyperAI
منذ 17 أيام

تقدير وضع الكائن باستخدام تمثيلات بصرية متوسطة المستوى

Negar Nejatishahidin, Pooya Fayyazsanavi, Jana Kosecka
تقدير وضع الكائن باستخدام تمثيلات بصرية متوسطة المستوى
الملخص

تُقدّم هذه الدراسة نموذجًا جديدًا لتقدير الوضعية (pose estimation) لفئات الكائنات التي يمكن نقله بشكل فعّال إلى بيئات لم تُرَ من قبل. عادةً ما تُدرّب نماذج الشبكات العصبية التلافيفية العميقة (CNN) المستخدمة في تقدير الوضعية وتُختبر على مجموعات بيانات مُعدّة خصيصًا للكشف عن الكائنات، أو تقدير الوضعية، أو إعادة بناء الأشكال ثلاثية الأبعاد، وهي مطالب بكميات كبيرة من البيانات التدريبية. في هذا العمل، نقترح نموذجًا لتقدير الوضعية يمكن تدريبه باستخدام كميات صغيرة من البيانات، ويُبنى على تمثيلات متوسطة المستوى عامة \cite{taskonomy2018} (مثل تقدير اتجاهات السطوح وتحسين التظليل). تُدرّب هذه التمثيلات على مجموعة بيانات كبيرة دون الحاجة إلى تسميات للوضعية أو الكائنات. ثم، يتم تحسين التنبؤات باستخدام شبكة عصبية صغيرة (CNN) تستخدم أقنعة الكائنات وتقنيات استرجاع الهيكل الظليل (silhouette retrieval). تُظهر الطريقة المقدمة أداءً متفوقًا على مجموعة بيانات Pix3D \cite{pix3d}، وتُظهر تحسنًا قارب 35٪ مقارنةً بالنماذج الحالية عندما تكون كمية البيانات التدريبية محدودة بـ 25٪ فقط. نُظهر أن هذه الطريقة مُفضّلة من حيث التعميم والقدرة على الانتقال إلى بيئات جديدة. من أجل تحقيق هذا الهدف، نقدّم معيارًا جديدًا لتقدير الوضعية لفئات الأثاث الشائعة في مجموعة بيانات الرؤية النشطة الصعبة \cite{Ammirato2017ADF}، ونُقيّم النماذج المدربة على مجموعة بيانات Pix3D.