11일 전
캡션 인식 일관성 기반 표현식 개체 세그멘테이션
Yi-Wen Chen, Yi-Hsuan Tsai, Tiantian Wang, Yen-Yu Lin, Ming-Hsuan Yang

초록
참조 표현(referring expressions)은 특정 객체를 장면 내에서 식별하는 자연어 설명으로, 일상 대화에서 널리 사용된다. 본 연구에서는 참조 표현으로 지정된 이미지 내 객체를 세그멘테이션하는 데 초점을 맞춘다. 이를 위해 언어 및 시각 인코더를 포함하는 엔드 투 엔드 학습 가능한 이해 네트워크를 제안한다. 이 네트워크는 텍스트에서 이미지로 지식을 전달하기 위해 공간 인지 동적 필터(spatial-aware dynamic filters)를 도입하여 지정된 객체의 공간 정보를 효과적으로 포착한다. 또한 언어 모듈과 시각 모듈 간의 효과적인 소통을 위해, 양쪽 도메인에서 공유되는 특징을 입력으로 받아 문장을 생성하는 캡션 생성 네트워크를 활용하며, 생성된 문장이 주어진 참조 표현과 유사하도록 강제하는 일관성(coherence)을 통해 두 모듈의 표현을 개선한다. 제안한 프레임워크는 두 개의 참조 표현 데이터셋에서 평가되었으며, 기존 최고 성능 알고리즘과 비교해 유리한 성능을 보였다.