3달 전

VICTR: 텍스트-to-이미지 다중모달 작업을 위한 시각 정보 캡처 텍스트 표현

Soyeon Caren Han, Siqu Long, Siwen Luo, Kunze Wang, Josiah Poon
VICTR: 텍스트-to-이미지 다중모달 작업을 위한 시각 정보 캡처 텍스트 표현
초록

텍스트-이미지 다모달 작업, 즉 주어진 텍스트 설명에서 이미지를 생성하거나 검색하는 작업은 시각적으로 현실적인 이미지를 완전히 설명하기 위해 원시 텍스트 설명이 제공하는 정보가 매우 제한적이기 때문에 매우 도전적인 과제입니다. 본 연구에서는 텍스트-이미지 다모달 작업을 위한 새로운 시각적 맥락 텍스트 표현 방식인 VICTR(Visual Contextual Text Representation)를 제안합니다. VICTR는 텍스트 입력으로부터 객체의 � бог rich한 시각적 의미 정보를 포착합니다. 먼저, 텍스트 설명을 초기 입력으로 사용하고 의존성 구문 분석( dependency parsing)을 수행하여 문법적 구조를 추출하며, 객체 수량과 같은 의미적 측면을 분석하여 장면 그래프(scene graph)를 생성합니다. 이후 장면 그래프 내의 추출된 객체, 속성, 관계 및 해당되는 기하학적 관계 정보를 그래프 컨볼루션 네트워크(Graph Convolutional Networks)를 사용하여 학습하여, 텍스트와 시각적 의미 정보를 통합한 텍스트 표현을 생성합니다. 이 텍스트 표현은 단어 수준 및 문장 수준의 임베딩과 결합되어 시각적 맥락을 반영한 단어 및 문장 수준의 표현을 생성합니다. 평가를 위해 VICTR를 텍스트-이미지 생성 분야의 최신 기술 모델에 적용하였습니다. VICTR는 기존 모델에 간편하게 통합 가능하며, 정량적 및 정성적 측면에서 모두 성능 향상을 보였습니다.