MMVP 멀티모달 모션 캡처 데이터 세트

MMVP(Multimodal MoCap Dataset with Vision and Pressure Sensors)는 베이항대학교, 청화대학교, 난징대학교가 공동으로 개발한 비전 및 압력 센서를 결합한 멀티모달 모션 캡처 데이터 세트입니다.
이 데이터 세트에는 달리기, 줄넘기, 제자리멀리뛰기 등과 같은 다양한 종류의 빠른 인간 동작이 포함되어 있습니다. 16명의 피험자로부터 총 44,000개 이상의 동기화된 RGBD 프레임과 압력 데이터가 수집되었습니다. 연구진은 Azure Kinect 카메라를 사용하여 초당 30프레임의 속도로 RGBD 비디오를 녹화하고, Xsensor 압력 깔창을 사용하여 초당 최대 150프레임의 속도로 발바닥 압력 데이터를 수집했습니다. 두 데이터 스트림을 수동으로 동기화하고 FPP-Net 및 CLIFF와 같은 딥러닝 알고리즘과 결합하여 데이터의 세부적인 처리 및 분석을 달성했습니다. 이 데이터 세트는 시각 및 압력 센서를 기반으로 한 인간 동작 캡처 연구를 위한 새로운 데이터 리소스를 제공하며, 이는 이 분야의 발전을 촉진할 수 있습니다.
설명하다: MMVP(Multimodal Visual Patterns) 벤치마크는 "CLIP-blind pairs"를 식별하는 데 중점을 둡니다. 즉, CLIP에서 명확한 시각적 차이가 있음에도 불구하고 유사한 것으로 간주하는 이미지를 식별하는 데 중점을 둡니다. MMVP는 GPT-4V를 포함한 최첨단 시스템의 성능을 9가지 기본 시각적 모달리티에 대해 벤치마킹합니다. 이 보고서는 이러한 시스템이 간단한 질문에 답하는 데 어려움을 겪고, 종종 잘못된 응답과 환각적인 해석으로 이어진다는 점을 강조합니다.
- 콘텐츠 유형: 이미지(CLIP-블라인드 쌍)
- 수량: 300개의 이미지
- 데이터 출처: ImageNet-1k 및 LAION-Aesthetics에서 파생됨
- 데이터 수집 방법: 비교 분석을 통한 CLIP 블라인드 쌍 식별