NTU RGB+D 120: قاعدة بيانات كبيرة لمفهوم أنشطة الإنسان ثلاثية الأبعاد

حققت الأبحاث في تحليل النشاط البشري القائم على العمق أداءً متميزًا وأظهرت فعالية التمثيل ثلاثي الأبعاد في التعرف على الحركات. ومع ذلك، فإن المعايير الحالية للتعرف على الحركات القائمة على العمق والمعتمدة على البيانات المدمجة بين الصور الملونة (RGB) وعمق المشهد (D) تعاني من عدد من القيود، بما في ذلك نقص العينات التدريبية الكبيرة الحجم، وعدم وجود عدد كبير من الفئات المختلفة، وقلة التنوع في زوايا الكاميرا، وتباين ظروف البيئة، بالإضافة إلى تنوع الأفراد البشريين.في هذا البحث، نقدم مجموعة بيانات كبيرة للتعرف على النشاط البشري باستخدام البيانات المدمجة بين الصور الملونة (RGB) وعمق المشهد (D)، والتي تم جمعها من 106 فردًا مختلفًا وتحتوي على أكثر من 114 ألف عينة فيديو و8 ملايين إطار. تتضمن هذه المجموعة بيانات 120 فئة مختلفة من الأنشطة، بما فيها الأنشطة اليومية والمشتركة والمرتبطة بالصحة. قمنا بتقييم أداء سلسلة من الأساليب الحالية لتحليل النشاط الثلاثي الأبعاد在这组数据上,并展示了应用深度学习方法在基于深度的人体动作识别中的优势。此外,我们还在我们的数据集上研究了一个新颖的一次性3D活动识别问题,并提出了一种简单而有效的框架,即Action-Part Semantic Relevance-aware (APSR)框架,该框架在新活动类别的识别中取得了有希望的结果。我们相信,引入这一大规模数据集将使社区能够应用、适应和发展各种对数据需求量大的学习技术,用于基于深度和RGB+D的人体活动理解。[该数据集可在以下网址获取: http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp]注:由于最后一句中包含中文字符,我将其翻译为阿拉伯语如下:نعتقد أن تقديم هذا المجموعة البيانات الضخمة سيمكن المجتمع من تطبيق وتكييف وتطوير تقنيات تعلم متعددة تحتاج إلى كميات كبيرة من البيانات لفهم النشاط البشري القائم على العمق والمدمج بين الصور الملونة (RGB) وعمق المشهد (D). [يمكن الحصول على هذه المجموعة البيانات من الرابط التالي: http://rose1.ntu.edu.sg/Datasets/actionRecognition.asp]