7일 전
지식 그래프 증강 트랜스포머를 활용한 텍스트 생성을 위한 비디오 캡션 기술
Xin Gu, Guang Chen, Yufei Wang, Libo Zhang, Tiejian Luo, Longyin Wen

초록
비디오 캡셔닝은 자연어를 사용하여 비디오의 내용을 설명하는 것을 목표로 한다. 비록 상당한 진전이 이루어졌지만, 특히 긴 꼬리(롱테일) 단어 문제로 인해 실제 응용 환경에서의 성능 향상 여지가 여전히 크다. 본 논문에서는 지식 그래프를 보강한 텍스트 기반 트랜스포머(TextKG)를 제안한다. 특히 TextKG는 외부 스트림과 내부 스트림으로 구성된 이중 스트림 트랜스포머 구조를 가진다. 외부 스트림은 추가 지식을 흡수하도록 설계되었으며, 사전에 구축된 지식 그래프와 비디오 내부 정보(예: 주목할 만한 객체 영역, 음성 전사본, 비디오 캡셔닝) 간의 상호작용을 모델링함으로써 긴 꼬리 단어 문제를 완화한다. 한편, 내부 스트림은 비디오 내 다중 모달 정보(예: 비디오 프레임의 외형, 음성 전사본, 비디오 캡셔닝)를 활용하여 캡셔닝 결과의 품질을 보장하도록 설계되었다. 또한 두 스트림 간에 크로스 어텐션 메커니즘을 도입하여 정보를 공유함으로써 두 스트림이 서로 보완하며 더 정확한 결과를 도출할 수 있도록 했다. 네 가지 도전적인 비디오 캡셔닝 데이터셋(YouCookII, ActivityNet Captions, MSRVTT, MSVD)에서 실시한 광범위한 실험 결과, 제안된 방법이 기존 최고 수준의 기법들과 비교해 유리한 성능을 보였다. 특히 YouCookII 데이터셋에서 기존 최고 성능보다 절대 CIDEr 점수를 18.7% 향상시켜 뛰어난 성능을 입증하였다.