3달 전

생성형 텍스트-이미지 합성의 의미적 객체 정확도

Tobias Hinz, Stefan Heinrich, Stefan Wermter
생성형 텍스트-이미지 합성의 의미적 객체 정확도
초록

텍스트 기반 이미지 설명을 조건으로 하는 생성적 적대 신경망(GAN)은 현실감 있는 이미지를 생성할 수 있다. 그러나 현재의 방법들은 이질적인 도메인에서 복잡한 이미지 설명을 기반으로 이미지를 생성하는 데 여전히 어려움을 겪고 있다. 더불어, 이러한 텍스트-이미지 모델을 정량적으로 평가하는 것은 도전적인 과제이며, 대부분의 평가 지표는 이미지의 품질만을 판단할 뿐, 이미지와 설명 사이의 일치성은 고려하지 않는다. 이러한 문제를 해결하기 위해, 우리는 이미지 내 개별 객체를 명시적으로 모델링하는 새로운 모델과, 이미지 설명이 주어졌을 때 이미지를 특별히 평가하는 새로운 평가 지표인 '의미적 객체 정확도(Semantic Object Accuracy, SOA)'를 제안한다. SOA는 사전에 훈련된 객체 탐지기(객체 감지 모델)를 활용하여, 생성된 이미지에 설명에 언급된 객체가 포함되어 있는지를 평가한다. 예를 들어, "거리 위를 달리는 차량"이라는 설명으로 생성된 이미지에 차량이 포함되어 있는지를 확인한다. 우리는 여러 텍스트-이미지 모델을 대상으로 사용자 연구를 수행하여, SOA 지표가 인간 평가와 동일한 순서로 모델을 순위 매긴다는 것을 확인했다. 반면, 인셉션 스코어(Inception Score)와 같은 기존 지표는 인간의 평가와 일치하지 않았다. 또한, 객체를 명시적으로 모델링하는 모델이 전반적인 이미지 특성만 모델링하는 모델보다 우수한 성능을 보임을 확인할 수 있었다.