3달 전

AOG-LSTM: 시각적 스토리텔링을 위한 적응형 어텐션 신경망

{and Wei Wu, Rui Xie, Hui Wang, Yong Jiang, Hai-Tao Zheng, Wei Wang, Chia-Hao Chang, Jiacheng Yang, Hanqing Liu}
AOG-LSTM: 시각적 스토리텔링을 위한 적응형 어텐션 신경망
초록

시각적 스토리텔링은 주어진 이미지 시퀀스에 대해 관련된 스토리를 생성하는 작업으로, 최근 많은 주목을 받고 있다. 그러나 일반적인 RNN(예: LSTM 및 GRU)을 디코더로 사용할 경우, 이 작업에서 모델의 성능이 제한된다. 그 이유는 이러한 모델이 다양한 정보 표현 유형을 구분하지 못하기 때문이다. 또한, 이전의 참조 시퀀스를 기반으로 다음 단어의 확률을 최적화하는 방식은 추론 과정에서 오류 누적을 초래할 수 있다. 게다가 기존의 참조 단어를 대체함으로써 오류 누적을 완화하는 방법은 각 단어가 미치는 영향의 차이를 고려하지 않는다. 위의 문제를 해결하기 위해, 우리는 AOG-LSTM이라는 수정된 신경망과 ARS라는 수정된 학습 전략을 각각 제안한다. AOG-LSTM은 특정 단어를 예측할 때 내부의 다양한 정보 표현 유형에 대해 적절한 주의를 적응적으로 부여할 수 있다. 학습 과정에서는 ARS 또한 기존 방법과 유사하게 참조 문장의 일부 단어를 모델의 예측값으로 대체하지만, 선택 네트워크와 선택 전략을 활용하여 더 적절한 단어를 선택함으로써 모델의 성능을 더 효과적으로 향상시킨다. VIST 데이터셋에서의 실험 결과, 제안한 모델이 가장 일반적으로 사용되는 평가 지표에서 여러 강력한 베이스라인 모델들을 상회함을 입증하였다.