HyperAI

مجموعة بيانات التقاط الحركة متعددة الوسائط MMVP

التاريخ

منذ عام واحد

الحجم

3 MB

المؤسسة

جامعة بكين للملاحة الجوية والفضائية
جامعة تسينغهوا

رابط النشر

hf-mirror.com

特色图像

MMVP (مجموعة بيانات التقاط الحركة متعددة الوسائط مع أجهزة استشعار الرؤية والضغط) هي مجموعة بيانات التقاط الحركة متعددة الوسائط تجمع بين أجهزة استشعار الرؤية والضغط التي تم تطويرها بشكل مشترك من قبل جامعة Beihang وجامعة Tsinghua وجامعة Nanjing.

تحتوي مجموعة البيانات على مجموعة واسعة من الحركات البشرية السريعة، مثل الجري، والقفز بالحبل، والقفز الطويل أثناء الوقوف، وما إلى ذلك. تم جمع ما مجموعه أكثر من 44 ألف إطار من إطارات RGBD المتزامنة وبيانات الضغط من 16 موضوعًا. واستخدم الباحثون كاميرا Azure Kinect لتسجيل فيديو RGBD بمعدل 30 إطارًا في الثانية، واستخدموا النعال الضغطية Xsensor لالتقاط بيانات ضغط القدم بمعدل يصل إلى 150 إطارًا في الثانية. ومن خلال المزامنة اليدوية لتيارين من البيانات ودمجهما مع خوارزميات التعلم العميق مثل FPP-Net وCLIFF، تمكنوا من تحقيق معالجة وتحليل تفصيلي للبيانات. توفر مجموعة البيانات هذه موردًا جديدًا للبيانات لأبحاث التقاط الحركة البشرية استنادًا إلى أجهزة استشعار الرؤية والضغط، مما يمكن أن يعزز التقدم في هذا المجال.

يصف: يركز معيار MMVP (الأنماط البصرية متعددة الوسائط) على تحديد "الأزواج غير المتوافقة مع CLIP" - الصور التي يعتبرها CLIP متشابهة على الرغم من وجود اختلافات بصرية واضحة. يقوم MMVP بتقييم أداء الأنظمة الحديثة، بما في ذلك GPT-4V، على تسعة أوضاع بصرية أساسية. ويسلط الضوء على التحديات التي تواجهها هذه الأنظمة في الإجابة على الأسئلة البسيطة، مما يؤدي في كثير من الأحيان إلى إجابات خاطئة وتفسيرات هلوسة.

  • نوع المحتوى: الصور (أزواج عمياء CLIP)
  • كمية: 300 صورة
  • مصدر البيانات: مشتق من ImageNet-1k وLAION-Aesthetics
  • طرق جمع البيانات: تحديد أزواج CLIP العمياء من خلال التحليل المقارن
MMVP.torrent
البذر 1التنزيل 1مكتمل 122إجمالي التنزيلات 101
  • MMVP/
    • README.md
      2.15 KB
    • README.txt
      4.29 KB
      • data/
        • MMVP.zip
          3 MB