HyperAIHyperAI
منذ 2 أشهر

الأشياء كنقاط

Xingyi Zhou; Dequan Wang; Philipp Krähenbühl
الأشياء كنقاط
الملخص

الكشف يحدد الأشياء كمربعات محاذية للمحور في الصورة. ت枚举几乎所有可能的物体位置并对其进行分类,这是大多数成功的物体检测器所采用的方法。然而,这种方法浪费资源、效率低下,并且需要额外的后处理。在本文中,我们采取了不同的方法。我们将物体建模为一个点——其边界框的中心点。我们的检测器使用关键点估计来找到中心点,并回归到其他所有物体属性,如大小、3D位置、方向,甚至姿态。基于中心点的方法(CenterNet)是端到端可微分的,比相应的基于边界框的检测器更简单、更快、更准确。CenterNet在MS COCO数据集上实现了最佳的速度-精度权衡,在142帧每秒时达到28.1%的平均精度(AP),在52帧每秒时达到37.4%的平均精度(AP),而在多尺度测试下以1.4帧每秒的速度达到45.1%的平均精度(AP)。我们使用相同的方法在KITTI基准测试中估计3D边界框,并在COCO关键点数据集中估计人体姿态。我们的方法与复杂的多阶段方法具有竞争力,并且可以实时运行。注:为了更符合阿拉伯语表达习惯,对原文进行了适当调整和优化。以下是优化后的阿拉伯语译文:يقوم نظام الكشف بتحديد الأجسام كمربعات محاذاة للمحور في الصورة. تعتمد معظم الأنظمة الناجحة للكشف عن الأجسام على إدراج قائمة شبه شاملة لمواقع الأجسام المحتملة وتقييم كل موقع منها. ومع ذلك، فإن هذه الطريقة غير فعالة وتستهلك الموارد بكثافة وتحتاج إلى معالجة لاحقية إضافية. في هذا البحث، نتبع منهجًا مختلفًا. نقوم بتمثيل الجسم كنقطة واحدة - وهي نقطة مركز صندوق الحدود الخاص به. يستخدم نظام الكشف الخاص بنا تقدير النقاط الرئيسية لاكتشاف نقاط المركز ويقوم بالانحدار إلى جميع الخصائص الأخرى للجسم، مثل الحجم والمكان ثلاثي الأبعاد والتوجيه وحتى الوضعية (pose). يعتبر منهجنا القائم على نقطة المركز (CenterNet) قابلًا للتفاضل من البداية إلى النهاية، وهو أبسط وأسرع وأكثر دقةً من الأنظمة القائمة على صناديق الحدود المقابلة لها. حقق CenterNet أفضل توازن بين السرعة والدقة في مجموعة بيانات MS COCO، حيث بلغت الدقة المتوسطة (AP) 28.1٪ عند معدل تحديث الإطارات 142 إطارًا في الثانية، و37.4٪ عند معدل تحديث الإطارات 52 إطارًا في الثانية، و45.1٪ عند اختبارات متعددة المقاييس بمعدل تحديث الإطارات 1.4 إطارًا في الثانية. نستخدم نفس الطريقة لتقدير صناديق الحدود ثلاثية الأبعاد في معيار KITTI ولتقدير وضع الإنسان في مجموعة بيانات نقاط المفتاح COCO. يتنافس أسلوبنا بشكل قوي مع الأساليب المتعددة المراحل المعقدة ويمكنه العمل بشكل فعلي الوقت الحقيقي (real-time).