2달 전
오브젝트, 문구 및 지역 캡션을 이용한 장면 그래프 생성
Yikang Li; Wanli Ouyang; Bolei Zhou; Kun Wang; Xiaogang Wang

초록
물체 인식, 장면 그래프 생성 및 지역 캡셔닝은 서로 다른 의미 수준에서 수행되는 세 가지 장면 이해 작업으로, 이들은 서로 연결되어 있습니다. 이미지에서 인식된 물체와 그들의 쌍별 관계를 예측하여 장면 그래프가 생성되며, 지역 캡셔닝은 물체, 속성, 관계 및 기타 맥락 정보에 대한 언어적 설명을 제공합니다. 본 연구에서는 이러한 의미 수준 간의 상호 연결성을 활용하기 위해, Multi-level Scene Description Network(다단계 장면 설명 네트워크, 이하 MSDN)라는 새로운 신경망 모델을 제안하여 세 가지 시각적 작업을 단일 과정으로 통합적으로 해결하고자 합니다. 먼저, 공간적 및 의미적 연결성을 기반으로 동적 그래프를 통해 물체, 문구 및 캡셔닝 영역을 정렬합니다. 그런 다음 특징 개선 구조를 사용하여 그래프를 통해 세 가지 의미 작업 수준 간에 메시지를 전달합니다. 학습된 모델을 세 가지 작업에 대해 벤치마킹한 결과, 제안된 방법을 통해 세 가지 작업 간의 공동 학습이 이전 모델들보다 상호 향상을 가져올 수 있음을 보였습니다. 특히, 장면 그래프 생성 작업에서 제안된 방법은 최신 기법보다 3% 이상의 성능 향상을 보였습니다.