VidProM 대규모 텍스트-비디오 프롬프트 데이터 세트

VidProM 데이터 세트는 시드니 공과대학교와 저장대학교가 공동으로 개발한 최초의 대규모 실제 사용자 텍스트-비디오 프롬프트 데이터 세트입니다. 여기에는 167만 개의 고유한 텍스트-비디오 프롬프트와 4개의 최첨단 확산 모델을 통해 생성된 669만 개의 비디오가 포함되어 있습니다.
이 데이터 세트는 방대한 양의 비디오 콘텐츠를 제공할 뿐만 아니라 각 프롬프트와 관련된 NSFW(직장에 적합하지 않음) 확률, 3072차원 프롬프트 임베딩 및 추가 관련 메타데이터도 포함합니다. 구축 과정에는 소스 HTML 파일 수집, 텍스트적 단서 추출 및 내장, NSFW 확률 할당, 비디오 크롤링 및 생성, 마지막으로 의미적으로 고유한 단서 필터링이 포함됩니다.
VidProM의 출시는 모델 평가, 효율적인 비디오 생성, 가짜 비디오 감지, 비디오 저작권 감지와 같은 측면을 포괄하여 텍스트-비디오 생성 분야의 연구를 촉진하고, 연구자들에게 새로운 텍스트-비디오 생성 기술을 탐색하고 개발할 수 있는 귀중한 리소스를 제공하는 것을 목표로 합니다.