مجموعة بيانات التقاط الحركة متعددة الوسائط MMVP
التاريخ
الحجم
رابط النشر
العلامات
الفئات

MMVP (مجموعة بيانات التقاط الحركة متعددة الوسائط مع أجهزة استشعار الرؤية والضغط) هي مجموعة بيانات التقاط الحركة متعددة الوسائط تجمع بين أجهزة استشعار الرؤية والضغط التي تم تطويرها بشكل مشترك من قبل جامعة Beihang وجامعة Tsinghua وجامعة Nanjing.
تحتوي مجموعة البيانات على مجموعة واسعة من الحركات البشرية السريعة، مثل الجري، والقفز بالحبل، والقفز الطويل أثناء الوقوف، وما إلى ذلك. تم جمع ما مجموعه أكثر من 44 ألف إطار من إطارات RGBD المتزامنة وبيانات الضغط من 16 موضوعًا. واستخدم الباحثون كاميرا Azure Kinect لتسجيل فيديو RGBD بمعدل 30 إطارًا في الثانية، واستخدموا النعال الضغطية Xsensor لالتقاط بيانات ضغط القدم بمعدل يصل إلى 150 إطارًا في الثانية. ومن خلال المزامنة اليدوية لتيارين من البيانات ودمجهما مع خوارزميات التعلم العميق مثل FPP-Net وCLIFF، تمكنوا من تحقيق معالجة وتحليل تفصيلي للبيانات. توفر مجموعة البيانات هذه موردًا جديدًا للبيانات لأبحاث التقاط الحركة البشرية استنادًا إلى أجهزة استشعار الرؤية والضغط، مما يمكن أن يعزز التقدم في هذا المجال.
يصف: يركز معيار MMVP (الأنماط البصرية متعددة الوسائط) على تحديد "الأزواج غير المتوافقة مع CLIP" - الصور التي يعتبرها CLIP متشابهة على الرغم من وجود اختلافات بصرية واضحة. يقوم MMVP بتقييم أداء الأنظمة الحديثة، بما في ذلك GPT-4V، على تسعة أوضاع بصرية أساسية. ويسلط الضوء على التحديات التي تواجهها هذه الأنظمة في الإجابة على الأسئلة البسيطة، مما يؤدي في كثير من الأحيان إلى إجابات خاطئة وتفسيرات هلوسة.
- نوع المحتوى: الصور (أزواج عمياء CLIP)
- كمية: 300 صورة
- مصدر البيانات: مشتق من ImageNet-1k وLAION-Aesthetics
- طرق جمع البيانات: تحديد أزواج CLIP العمياء من خلال التحليل المقارن