2달 전

반사 해독 네트워크를 이용한 이미지 캡셔닝

Lei Ke; Wenjie Pei; Ruiyu Li; Xiaoyong Shen; Yu-Wing Tai
반사 해독 네트워크를 이용한 이미지 캡셔닝
초록

최신 이미지 캡셔닝 방법들은 대부분 시각적 특성을 개선하는 데 초점을 맞추고 있으며, 언어의 고유한 속성을 활용하여 캡셔닝 성능을 향상시키는 데는 상대적으로 적은 관심이 집중되어 왔습니다. 본 논문에서는 단어 간 어휘 일관성과 문장의 구문 패러다임이 고품질 이미지 캡셔닝 생성에 중요한 역할을 한다는 점을 보여줍니다. 기존의 인코더-디코더 프레임워크를 따르면서, 우리는 이미지 캡셔닝을 위한 반사 디코딩 네트워크(Reflective Decoding Network, RDN)를 제안합니다. 이 모델은 캡션 디코더에서 긴 시퀀스 의존성과 단어 위치 인식을 강화합니다. 우리의 모델은 시각적 특성과 텍스트 특성에 공동으로 주목하면서 각 단어의 문장 내 상대적 위치를 인식하여 생성된 캡션에서 전달되는 정보를 최대화하도록 학습됩니다. COCO 이미지 캡셔닝 데이터셋에서 RDN의 효과를 평가한 결과, 이전 방법들보다 우수한 성능을 달성했습니다. 추가 실험에서는 복잡한 장면을 설명해야 하는 어려운 사례에서 우리의 접근 방식이 특히 유리함을 확인할 수 있었습니다.