17일 전
다중 문장 영상 설명 향상을 위한 글로벌 객체 제안
{Pushpak Bhattacharyya, Sriparna Saha, Chandresh S. Kanani}
초록
최근 몇 년 동안 이미지 캡셔닝 분야에서 큰 진전이 있었다. 반면 영상 설명 생성은 여전히 초기 단계에 있으며, 이는 영상이 이미지에 비해 훨씬 더 복잡한 성격을 지니고 있기 때문이다. 영상에 대한 단락 수준의 설명을 생성하는 것은 더욱 도전적인 과제이다. 주요 과제로는 시간적 객체 의존성과 복잡한 객체 간 관계가 있다. 최근 다문장 영상 설명 생성에 관한 많은 연구들이 제안되고 있다. 대부분의 기존 방법들은 두 단계 접근 방식에 기반하고 있다. 즉, 1) 이벤트 제안, 2) 캡셔닝 생성이다. 이러한 접근법은 우수한 성과를 내고 있지만, 전역적으로 이용 가능한 정보를 고려하지 못한다는 한계가 있다. 본 연구에서는 영상 캡셔닝 생성 과정에서 전역적 객체 제안(global object proposals)을 활용하는 방안을 제안한다. ActivityNet 데이터셋을 대상으로 한 실험 결과, 전역적 객체 제안을 활용할 경우 더 정보량이 풍부하고 정확한 캡셔닝을 생성할 수 있음을 확인하였다. 또한 생성기의 객체 탐지 능력을 평가하기 위해 세 가지 평가 지표를 제안하였다. 제안한 방법과 최신 기술 간의 정성적 비교를 통해 본 방법의 효과성을 입증하였다.