2달 전

말하기, 그리기, 그리고 반복하기: 지속적인 언어 지시에 기반한 이미지 생성 및 수정

Alaaeldin El-Nouby; Shikhar Sharma; Hannes Schulz; Devon Hjelm; Layla El Asri; Samira Ebrahimi Kahou; Yoshua Bengio; Graham W.Taylor

논문 세부 정보 보기

말하기, 그리기, 그리고 반복하기: 지속적인 언어 지시에 기반한 이미지 생성 및 수정

초록

조건부 텍스트-이미지 생성은 많은 가능한 응용 분야를 가진 활발한 연구 영역입니다. 기존 연구는 주로 단일 이미지를 한 번의 단계에서 조건 정보로부터 생성하는 데 초점을 맞추었습니다. 한 단계 생성을 넘어서 실용적인 확장 중 하나는 언어적 입력이나 피드백에 따라 반복적으로 이미지를 생성하는 시스템입니다. 이러한 시스템은 피드백 역사와 현재 피드백, 그리고 피드백 역사에 나타난 개념들 간의 상호작용을 고려하여 생성된 이미지의 내용을 이해해야 하므로, 한 단계 생성 작업보다 훨씬 더 어려운 문제입니다. 본 연구에서는 현재까지 생성된 출력과 모든 과거 생성 지시사항을 고려하는 순환 이미지 생성 모델을 제시합니다. 실험 결과, 우리의 모델은 배경을 생성하고 새로운 객체를 추가하며 기존 객체에 간단한 변형을 적용할 수 있음을 보였습니다. 우리는 이 접근법이 상호작용적인 생성 방향으로 나아가는 중요한 단계라고 믿습니다. 코드와 데이터는 다음 링크에서 확인 가능합니다: https://www.microsoft.com/en-us/research/project/generative-neural-visual-artist-geneva/ .