2달 전
VTG-GPT: 튜닝이 필요 없는 제로샷 비디오 시점 지정에 대한 GPT
Yifang Xu; Yunzhuo Sun; Zien Xie; Benxiang Zhai; Sidan Du

초록
비디오 시간 축 지정(VTG)은 언어 쿼리를 기반으로 미리 편집되지 않은 비디오에서 특정 시간 구간을 찾는 것을 목표로 합니다. 기존의 대부분 VTG 모델은 광범위한 주석이 달린 비디오-텍스트 쌍에 대해 훈련되는데, 이 과정은 쿼리로부터 인간의 편향을 도입할 뿐만 아니라 상당한 계산 비용을 초래합니다. 이러한 문제를 해결하기 위해, 우리는 훈련이나 미세 조정 없이 제로샷 VTG를 위한 GPT 기반 방법인 VTG-GPT를 제안합니다. 원래 쿼리의 편향을 줄이기 위해 우리는 Baichuan2를 사용하여 편향이 없는 쿼리를 생성합니다. 비디오의 불필요한 정보를 줄이기 위해 MiniGPT-v2를 적용하여 시각적 내용을 더 정확한 자막으로 변환합니다. 마지막으로, 우리는 편향이 없는 쿼리와 이미지 자막에서 정확한 구간을 생성하기 위한 프로포절 생성기와 후처리 방법을 설계하였습니다. 광범위한 실험 결과, VTG-GPT는 제로샷 환경에서 현존하는 최고 수준(SOTA) 방법론보다 크게 우수하며, 감독되지 않은 접근 방식을 능가한다는 것이 입증되었습니다. 더욱이, 이는 감독된 방법론과 비교해도 경쟁력 있는 성능을 보여주었습니다. 코드는 https://github.com/YoucanBaby/VTG-GPT에서 이용 가능합니다.