11일 전

시각적 서사에 대한 계층적 메모리 디코더

{Yi Yang, Zhou Zhao, Yahong Han, Aming Wu}
초록

시각적 서사(Visual narrating)는 이미지 또는 영상의 시각적 콘텐츠를 요약하기 위해 의미적 설명을 생성하는 것을 목표로 하며, 예를 들어 시각적 캡션(visual captioning)과 시각적 스토리텔링(visual storytelling) 등이 포함된다. 이 과제의 핵심은 시각적 콘텐츠와 정확히 일치하는 설명을 생성할 수 있도록 디코더를 설계하는 데 있다. 최근의 연구들은 일반적으로 순환 신경망(Recurrent Neural Network, RNN), 예를 들어 장단기 기억망(Long-Short Term Memory, LSTM)을 디코더로 활용한다. 그러나 RNN은 장기 정보를 약화시키기 쉬운 특성이 있어, 장기 종속성(long-term dependencies)을 효과적으로 포착하는 데 한계가 있다. 최근 연구에서는 메모리 네트워크(Memory Network, MemNet)가 장기 정보를 저장하는 데 장점을 가진다는 점이 입증되었다. 그러나 시각적 서사의 디코더로서 MemNet의 활용은 아직 충분히 이루어지지 않았다. 그 이유 중 하나는 MemNet을 다중 모달 시퀀스 디코딩(multi-modal sequential decoding)에 적용하는 데 기술적 난이도가 존재하기 때문이다. 본 논문에서는 시각적 서사에 적합한 새로운 메모리 디코더를 제안한다. 구체적으로, 더 나은 다중 모달 표현을 얻기 위해 먼저 시각적 정보와 어휘적 정보를 보다 효과적으로 융합하는 새로운 다중 모달 융합 방법을 설계한다. 이후 융합된 결과를 바탕으로 디코딩 과정에서 다중 메모리 레이어로 구성된 MemNet 기반 디코더를 구축한다. 특히 각 레이어에서는 이전 디코딩 정보를 저장하는 메모리 세트를 활용하고, 현재 출력에 관련된 정보를 적응적으로 선택하기 위해 어텐션 메커니즘을 도입한다. 동시에, 현재 시간 단계에서 각 메모리 레이어의 디코딩 출력을 저장하는 메모리 세트도 활용하며, 여전히 어텐션 메커니즘을 통해 관련 정보를 선택한다. 이러한 구조는 장기 정보의 약화 문제를 완화시킨다. 또한 계층적 아키텍처는 각 레이어 내 잠재된 정보를 효과적으로 활용함으로써 정확한 설명 생성에 기여한다. 시각적 서사의 두 가지 주요 과제인 영상 캡션(Video Captioning)과 시각적 스토리텔링에 대한 실험 결과를 통해 제안하는 디코더가 우수한 성능을 발휘하며, 기존의 RNN 기반 디코더보다 뛰어난 성능을 달성함을 확인할 수 있었다.

시각적 서사에 대한 계층적 메모리 디코더 | 최신 연구 논문 | HyperAI초신경