HyperAI초신경

이 데이터 세트는 상하이 인공지능 연구소(Shanghai AI Lab), 난징대학교, 중국과학원 및 기타 기관이 2024년에 공동으로 공개한 고품질의 대규모 비디오-텍스트 데이터 세트입니다. 이 데이터 세트는 비디오-언어 모델링에 대한 수요 증가를 충족하고 대규모 모델 비디오 이해 및 생성 기능을 더욱 개선하는 것을 목표로 합니다.

세계에서 가장 큰 공개 비디오-텍스트 데이터 세트 중 하나로서,InternVid에는 16개 장면과 약 6,000개의 액션 설명을 포함한 700만 개 이상의 비디오가 수록되어 있으며, 총 길이는 약 760,000시간에 달합니다.그리고 높은 비디오-텍스트 대응성을 갖는 데이터 세트영상과 텍스트 설명이 매우 일치합니다.비디오-텍스트 의미 매칭, 비디오-텍스트 검색, 비디오-텍스트 생성과 같은 다중 모드 학습 과제를 훈련하기 위한 "비디오 사전"을 제공합니다.

InternVid는 학계에서 널리 주목을 받았으며, 다중 모드 세계 모델인 LWM에 적용되었고, Google과 Stable AI에서 비디오 생성 작업에 사용되거나 참조되었습니다. 관련 논문은 2024년 표현 학습 국제 컨퍼런스(ICLR 2024)에서 주목을 받았습니다.

InternVid-Full 고품질 대규모 비디오-텍스트 데이터 세트