2달 전

문장 주제의 컨볼루션 오토인코딩을 이용한 이미지 단락 생성

Jing Wang; Yingwei Pan; Ting Yao; Jinhui Tang; Tao Mei
문장 주제의 컨볼루션 오토인코딩을 이용한 이미지 단락 생성
초록

이미지 단락 생성은 이미지의 시각적 내용을 설명하는 일관된 이야기(일반적으로 단락)를 생성하는 작업입니다. 그러나 실제 이미지에서 자주 발생하듯이 여러 가지 설명적이고 다양한 요점을 고려하여 단락을 생성해야 하는 경우 이 문제는 쉽지 않습니다. 중요한 질문은 이미지에서 언급할 가치가 있는 이러한 요점/주제들을 어떻게 캡슐화하고, 하나의 주제에서 다른 주제로 전환하면서 전체적으로 일관된 구조로 이미지를 설명할 것인가입니다. 본 논문에서는 이미지의 지역 수준 특성을 위한 주제 모델링에 순수하게 컨벌루션 및 디컨벌루션 오토인코딩 프레임워크를 사용하는 새로운 설계인 컨벌루셔널 오토인코딩(CAE)을 제시합니다. 또한, 학습된 주제들을 단락 생성에 통합하는 독창적인 아키텍처인 CAE와 장단기 기억(LSTM)을 결합한 CAE-LSTM을 제안합니다. 기술적으로, CAE-LSTM은 어텐션 메커니즘을 활용한 두 단계 LSTM 기반 단락 생성 프레임워크를 활용합니다. 단락 수준의 LSTM은 단락 내 문장 간 의존성을 포착하며, 문장 수준의 LSTM은 각 학습된 주제에 조건부로 한 문장을 생성합니다. 스탠퍼드 이미지 단락 데이터셋에서 광범위한 실험이 수행되었으며, 최신 접근법들과 비교하여 우수한 결과가 보고되었습니다. 더욱 놀랍게도, CAE-LSTM은 CIDEr 성능을 20.93%에서 25.15%로 향상시켰습니다.

문장 주제의 컨볼루션 오토인코딩을 이용한 이미지 단락 생성 | 최신 연구 논문 | HyperAI초신경