HyperAI초신경

CinePile 장편 영상 이해 질의응답 데이터 세트

特色图像

장문 비디오 이해를 위한 현재의 데이터 세트는 종종 진정한 장문 비디오 이해 과제를 제공하지 못합니다. 이러한 데이터 세트에서 파생된 많은 작업은 비디오에서 하나 또는 몇 개의 무작위 프레임을 분석하면 성공적으로 해결할 수 있기 때문입니다. 이 문제를 해결하려면연구팀은 실제 장편 비디오의 이해를 위해 설계된 새로운 데이터 세트와 벤치마크인 CinePile을 제안했습니다.

연구팀은 고급 LLM과 인간-컴퓨터 상호작용을 활용하고 인간이 생성한 원본 데이터를 기반으로 구축했습니다. 포괄적인 데이터 세트에는 시간적 이해, 인간-사물 상호 작용 이해, 장면 내의 이벤트나 동작에 대한 추론을 포함한 다양한 시각적, 다중 모드적 측면을 다루는 305,000개의 객관식 문제(MCQ)가 포함되어 있습니다. 또한, 오픈 소스와 독점적인 최신 비디오 중심 LLM은 데이터 세트의 테스트 부분에서 평가됩니다. 연구 결과에 따르면 최첨단 비디오 중심 LLM조차도 이런 작업에서는 인간보다 훨씬 못한 성과를 보였습니다. 이는 비디오 이해에 내재된 복잡성과 어려움이 드러난다는 것을 보여줍니다.

CinePile.torrent
시딩 1다운로드 중 1완료됨 50총 다운로드 횟수 75
  • CinePile/
    • README.md
      1.71 KB
    • README.txt
      3.42 KB
      • data/
        • cinepile.zip
          88.04 MB