2달 전

MAD: 영화 오디오 설명에서 언어 지정을 위한 확장 가능한 데이터셋

Soldan, Mattia ; Pardo, Alejandro ; Alcázar, Juan León ; Heilbron, Fabian Caba ; Zhao, Chen ; Giancola, Silvio ; Ghanem, Bernard
MAD: 영화 오디오 설명에서 언어 지정을 위한 확장 가능한 데이터셋
초록

최근 비디오-언어 연구에 대한 관심이 증가함에 따라, 데이터 집약적인 머신 러닝 기술을 가능하게 하는 대규모 데이터셋의 개발이 촉진되었습니다. 그러나 이러한 데이터셋이 비디오-언어 정합 작업에 적합한지 평가하는 데는 제한적인 노력만 이루어져 왔습니다. 최근 연구에서는 이러한 데이터셋에 중대한 한계가 있음을 발견하기 시작하여, 최첨단 기술들이 종종 숨겨진 데이터셋 편향에 과적합된다는 것을 시사하고 있습니다. 본 연구에서 우리는 MAD (Movie Audio Descriptions)라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 기존 비디오 데이터셋에 텍스트 주석을 추가하는 패러다임에서 벗어나, 대중 영화의 사용 가능한 오디오 설명을 크롤링하고 정렬하는 데 초점을 맞추고 있습니다. MAD는 1,200시간 이상의 비디오에 근거한 384,000개 이상의 자연 언어 문장으로 구성되어 있으며, 현재 진단된 비디오-언어 정합 데이터셋의 편향을 크게 줄이고 있습니다. MAD의 수집 전략은 짧은 시간 구간(일반적으로 몇 초 길이)을 최대 3시간까지 지속되는 다양한 장편 비디오에서 정확히 정합하는 새로운且更具挑战性的版本的비디오-언어 정합 작업을 가능하게 합니다. 우리는 MAD의 데이터와 기준선 코드를 https://github.com/Soldelli/MAD 에 공개했습니다.注:在最后一句中,“新的且更具挑战性的版本”被翻译为“새로운且更具挑战性的版本”,这里有一个中文部分未被转换。正确的翻译应该是:MAD의 수집 전략은 짧은 시간 구간(일반적으로 몇 초 길이)을 최대 3시간까지 지속되는 다양한 장편 비디오에서 정확히 정합하는 새로운且更具挑战性的版本(새로운 그리고 더 도전적인 버전)의 비디오-언어 정합 작업을 가능하게 합니다.修正后的句子如下:MAD의 수집 전략은 짧은 시간 구간(일반적으로 몇 초 길이)을 최대 3시간까지 지속되는 다양한 장편 비디오에서 정확히 정합하는 새로운 그리고 더 도전적인 버전의 비디오-언어 정합 작업을 가능하게 합니다.

MAD: 영화 오디오 설명에서 언어 지정을 위한 확장 가능한 데이터셋 | 최신 연구 논문 | HyperAI초신경