16일 전
GRiT: 개체 이해를 위한 생성형 리전 투 텍스트 트랜스포머
Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang

초록
이 논문은 객체 이해를 위한 생성형 영역-텍스트 변환기인 GRiT(Generative RegIon-to-Text transformer)를 제안한다. GRiT의 핵심 아이디어는 객체 이해를 <영역, 텍스트> 쌍으로 포맷하는 것이다. 여기서 영역은 객체의 위치를 나타내고, 텍스트는 객체를 설명한다. 예를 들어, 객체 탐지(task)에서 텍스트는 클래스 이름을 의미하는 반면, 밀도 높은 캡션(dense captioning)에서는 객체를 묘사하는 서술문을 의미한다. 구체적으로, GRiT는 이미지 특징을 추출하는 시각 인코더, 객체를 국소화하는 전경 객체 추출기, 그리고 개방 집합(open-set) 객체 설명을 생성하는 텍스트 디코더로 구성된다. 동일한 모델 아키텍처를 활용함으로써, GRiT는 객체를 단순한 명사뿐 아니라, 객체의 속성이나 동작을 포함한 � rich한 서술문을 통해 이해할 수 있다. 실험적으로 GRiT는 객체 탐지 및 밀도 높은 캡션 작업에 적용되었으며, COCO 2017 test-dev에서 60.4 AP를 달성하고, Visual Genome에서 밀도 높은 캡션 작업에 대해 15.5 mAP를 기록하였다. 코드는 https://github.com/JialianW/GRiT 에서 공개되어 있다.