2달 전
문장 주제의 컨볼루션 오토인코딩을 이용한 이미지 단락 생성
Jing Wang; Yingwei Pan; Ting Yao; Jinhui Tang; Tao Mei

초록
이미지 단락 생성은 이미지의 시각적 내용을 설명하는 일관된 이야기(일반적으로 단락)를 생성하는 작업입니다. 그러나 실제 이미지에서 자주 발생하듯이 여러 가지 설명적이고 다양한 요점을 고려하여 단락을 생성해야 하는 경우 이 문제는 쉽지 않습니다. 중요한 질문은 이미지에서 언급할 가치가 있는 이러한 요점/주제들을 어떻게 캡슐화하고, 하나의 주제에서 다른 주제로 전환하면서 전체적으로 일관된 구조로 이미지를 설명할 것인가입니다. 본 논문에서는 이미지의 지역 수준 특성을 위한 주제 모델링에 순수하게 컨벌루션 및 디컨벌루션 오토인코딩 프레임워크를 사용하는 새로운 설계인 컨벌루셔널 오토인코딩(CAE)을 제시합니다. 또한, 학습된 주제들을 단락 생성에 통합하는 독창적인 아키텍처인 CAE와 장단기 기억(LSTM)을 결합한 CAE-LSTM을 제안합니다. 기술적으로, CAE-LSTM은 어텐션 메커니즘을 활용한 두 단계 LSTM 기반 단락 생성 프레임워크를 활용합니다. 단락 수준의 LSTM은 단락 내 문장 간 의존성을 포착하며, 문장 수준의 LSTM은 각 학습된 주제에 조건부로 한 문장을 생성합니다. 스탠퍼드 이미지 단락 데이터셋에서 광범위한 실험이 수행되었으며, 최신 접근법들과 비교하여 우수한 결과가 보고되었습니다. 더욱 놀랍게도, CAE-LSTM은 CIDEr 성능을 20.93%에서 25.15%로 향상시켰습니다.