16일 전
BERT-hLSTMs: 시각적 스토리텔링을 위한 BERT 및 계층적 LSTMs
Jing Su, Qingyun Dai, Frank Guerin, Mian Zhou

초록
시각적 스토리텔링은 일련의 이미지에 대해 이야기처럼 보이는 설명을 자동으로 생성하는 창의적이고 도전적인 과제이다. 기존의 시각적 스토리텔링 접근법은 단어 수준의 시퀀스 생성 방식을 사용하기 때문에 생성된 설명이 일관성이 부족한 문제가 있다. 이러한 문제를 해결하기 위해 우리는 문장 수준과 단어 수준의 의미를 별도로 모델링하는 새로운 계층적 시각적 스토리텔링 프레임워크를 제안한다. 본 연구에서는 트랜스포머 기반의 BERT를 활용하여 문장과 단어의 임베딩을 추출한다. 이후 계층적 LSTM 네트워크를 도입한다. 하위 LSTM은 BERT에서 얻은 문장 벡터 표현을 입력으로 받아 이미지에 대응하는 문장 간의 의존 관계를 학습하고, 상위 LSTM은 하위 LSTM의 출력을 입력으로 받아 해당 문장의 단어 벡터 표현을 생성한다. 실험 결과, 제안하는 모델은 BLEU 및 CIDEr와 같은 자동 평가 지표에서 가장 유사한 기존 베이스라인 모델들을 상회하며, 인간 평가를 통한 결과 또한 본 방법의 효과성을 입증하고 있다.