7일 전

비디오 캡션을 위한 교사 추천 학습을 통한 객체 관계 그래프

Ziqi Zhang, Yaya Shi, Chunfeng Yuan, Bing Li, Peijin Wang, Weiming Hu, Zhengjun Zha
비디오 캡션을 위한 교사 추천 학습을 통한 객체 관계 그래프
초록

비디오 캡션 생성 작업에서 시각 정보와 언어 정보를 극대한 활용하는 것은 매우 중요하다. 기존 모델들은 개체 간 상호작용을 간과함으로써 충분한 시각적 표현을 갖추지 못하고 있으며, 긴 꼬리(long-tailed) 문제로 인해 콘텐츠 관련 단어에 대한 충분한 학습이 이루어지지 못하고 있다. 본 논문에서는 새로운 모델과 효과적인 학습 전략을 포함하는 완전한 비디오 캡션 시스템을 제안한다. 구체적으로, 더 세부적인 상호작용 특징을 포착하여 시각적 표현을 풍부하게 하는 객체 관계 그래프(Object Relational Graph, ORG) 기반 인코더를 제안한다. 한편, 성공적인 외부 언어 모델(External Language Model, ELM)의 정보를 극대화하여 캡션 모델에 풍부한 언어 지식을 통합하기 위해 교사 추천 학습(Teacher-Recommended Learning, TRL) 방법을 설계하였다. ELM은 더 의미적으로 유사한 단어 후보를 생성함으로써 학습에 사용되는 참값 단어를 확장함으로써 긴 꼬리 문제를 해결한다. MSVD, MSR-VTT, VATEX 세 가지 벤치마크에서 수행한 실험 평가 결과, 제안하는 ORG-TRL 시스템이 최신 기술(SOTA) 수준의 성능을 달성함을 확인하였다. 광범위한 아블레이션 연구 및 시각화 결과를 통해 본 시스템의 효과성이 입증되었다.