2달 전

GEB+: 일반 이벤트 경계 캡셔닝, 그라운딩 및 검색을 위한 벤치마크

Wang, Yuxuan ; Gao, Difei ; Yu, Licheng ; Lei, Stan Weixian ; Feiszli, Matt ; Shou, Mike Zheng
GEB+: 일반 이벤트 경계 캡셔닝, 그라운딩 및 검색을 위한 벤치마크
초록

인지 과학은 인간이 주요 주체의 상태 변화로 구분되는 사건들로 비디오를 인식한다는 것을 보여주었습니다. 상태 변화는 새로운 사건을 유발하며, 많은 중복 정보 중에서 가장 유용한 부분 중 하나입니다. 그러나 이전 연구들은 세부적인 상태 변화를 평가하지 않고 전체적인 구간 이해에 초점을 맞추었습니다. 본 논문에서는 일반적인 사건의 상태 변화를 설명하는 캡션과 함께 12,000개 이상의 비디오에서 17만 개 이상의 경계를 포함하는 새로운 데이터셋인 Kinetic-GEB+를 소개합니다. 이 새로운 데이터셋을 기반으로, 상태 변화를 통해 더욱 세밀하고 견고하며 인간처럼 비디오를 이해할 수 있는 세 가지 작업을 제안합니다. 우리는 데이터셋에서 여러 대표적인 베이스라인들을 평가하였으며, 시기 기반 쌍별 차이(TPD: Temporal-based Pairwise Difference) 모델링 방법을 설계하여 시각적 차이에 대한 성능 향상을 달성하였습니다. 또한 결과는 현재 방법들이 다양한 단위의 활용, 시각적 차이 표현, 그리고 상태 변화의 정확한 위치 파악 등에서 여전히 큰 도전 과제가 있음을 보여주었습니다. 추가 분석은 우리의 데이터셋이 더 강력한 방법 개발을 촉진하여 상태 변화 이해를 개선하고, 따라서 비디오 수준의 이해도를 향상시킬 수 있음을 입증하였습니다. 비디오와 경계 모두 포함된 데이터셋은 https://yuxuan-w.github.io/GEB-plus/ 에서 이용 가능합니다.

GEB+: 일반 이벤트 경계 캡셔닝, 그라운딩 및 검색을 위한 벤치마크 | 최신 연구 논문 | HyperAI초신경