2달 전

반복적인 주제 전환 GAN을 이용한 시각적 문단 생성

Xiaodan Liang; Zhiting Hu; Hao Zhang; Chuang Gan; Eric P. Xing
반복적인 주제 전환 GAN을 이용한 시각적 문단 생성
초록

자연 이미지는 일반적으로 풍부한 의미 내용을 전달하며 다양한 각도에서 관찰할 수 있습니다. 기존의 이미지 설명 방법은 편향된 시각적 단락 주석의 작은 집합에 크게 제한되어 있어, 풍부한 내재적 의미를 포괄하지 못합니다. 본 논문에서는 지역별 의미 영역을 분석하고 언어 지식을 활용하여 다양하면서도 의미적으로 일관된 단락 설명을 생성할 수 있는 반감독형 단락 생성 프레임워크를 연구하였습니다. 제안된 순환 주제 전환 생성 적대 네트워크(Recurrent Topic-Transition Generative Adversarial Network, RTT-GAN)는 구조화된 단락 생성기와 다중 수준의 단락 식별기 간의 적대적 프레임워크를 구축합니다. 단락 생성기는 각 단계에서 지역 기반 시각 및 언어 주의 메커니즘을 통합하여 문장을 순환적으로 생성합니다. 생성된 단락 문장의 품질은 문장 수준의 타당성과 단락 수준의 주제 전환 일관성이라는 두 가지 측면에서 다중 수준 적대적 식별기에 의해 평가됩니다. RTT-GAN의 공동 적대 학습은 모델이 문장 간 원활한 논리적 전환을 가진 실제적인 단락을 생성하도록 유도합니다. 이미지 및 비디오 단락 데이터셋에 대한 광범위한 정량적 실험은 제안된 RTT-GAN이 감독 및 반감독 환경 모두에서 효과적임을 입증하였습니다. 한 이미지를 다양한 이야기로 표현하는 정성적 결과 역시 RTT-GAN의 해석 가능성을 확인하였습니다.

반복적인 주제 전환 GAN을 이용한 시각적 문단 생성 | 최신 연구 논문 | HyperAI초신경