Spatio Temporal Video Grounding
스페이스-타임 영상 지정은 컴퓨터 비전과 자연어 처리를 결합한 작업으로, 텍스트 설명을 특정 공간-시간 영역이나 순간에 연결시키는 것을 목표로 합니다. 이 작업은 주어진 텍스트 쿼리나 설명이 영상의 어떤 부분에 해당하는지를 결정합니다. 이 작업은 영상 요약, 콘텐츠 기반 영상 검색, 영상 캡션 생성 등의 응용 분야에서 매우 중요합니다.
스페이스-타임 영상 지정은 컴퓨터 비전과 자연어 처리를 결합한 작업으로, 텍스트 설명을 특정 공간-시간 영역이나 순간에 연결시키는 것을 목표로 합니다. 이 작업은 주어진 텍스트 쿼리나 설명이 영상의 어떤 부분에 해당하는지를 결정합니다. 이 작업은 영상 요약, 콘텐츠 기반 영상 검색, 영상 캡션 생성 등의 응용 분야에서 매우 중요합니다.