HyperAI초신경

Ref-AVS 데이터 세트는 중국 인민대학, 베이징우정대학, 상하이 인공지능연구소의 연구원들에 의해 2024년에 공개되었습니다.Ref-AVS: 시청각 장면의 객체 참조 및 분할", ECCV2024에 의해 승인되었습니다.

Ref-AVS 데이터 세트는 픽셀 수준의 주석을 제공하고 특히 오디오 및 시각 정보의 융합을 포함하는 복잡한 작업에서 다중 모드 머신 러닝 모델의 개발을 촉진하는 것을 목표로 하는 오디오-비주얼 장면의 객체 분할 작업을 위한 벤치마크입니다.

연구팀은 48개 범주에 속하는 여러 개의 청각적 물체를 선택했습니다. 악기 20개, 동물 8개, 기계 15개, 인간 5개입니다. 주석은 팀의 맞춤형 GSAI 태그 시스템을 사용하여 수집되었습니다.

비디오 수집 과정에서 연구팀은 문헌[3,47]에 소개된 기술을 사용하여 오디오 및 비디오 클립이 의도된 의미에 맞춰 정렬되도록 했습니다. 모든 영상은 크리에이티브 커먼즈 라이선스에 따라 YouTube에서 가져왔으며, 각 영상은 10초 길이로 편집되었습니다. 수동 수집 과정 전반에 걸쳐 우리는 의도적으로 비디오를 여러 범주로 분류하지 않았습니다. 1) 동일한 의미적 양이 많은 비디오; 2) 편집 및 카메라 전환 속성이 많은 비디오 3) 합성 아티팩트를 포함한 비현실적인 영상.

Ref-AVS 오디오-비주얼 장면 분할 데이터 세트