2달 전

밀도 높은 관계 캡셔닝: 관계 기반 캡셔닝을 위한 트리플 스트림 네트워크

Dong-Jin Kim; Jinsoo Choi; Tae-Hyun Oh; In So Kweon
밀도 높은 관계 캡셔닝: 관계 기반 캡셔닝을 위한 트리플 스트림 네트워크
초록

본 연구의 목표는 더 밀도가 높고 정보가 풍부한 캡션을 생성하는 이미지 캡셔닝 모델을 훈련시키는 것입니다. 우리는 "관계형 캡셔닝"이라는 새로운 이미지 캡셔닝 작업을 소개합니다. 이 작업은 이미지 내 객체 간의 관계 정보에 따라 여러 개의 캡션을 생성하는 것을 목표로 합니다. 관계형 캡셔닝은 다양성과 정보량 면에서 유리한 프레임워크로, 관계를 기반으로 한 이미지 이해를 가능하게 합니다. 영어 단어 각각에 품사(POS, 즉 주어-목적어-동사 범주) 태그를 할당할 수 있습니다. 우리는 POS를 사전 지식으로 활용하여 캡션 내 단어의 올바른 순서를 안내합니다. 이를 위해, 세 가지 반복 유닛으로 구성되어 각각의 POS에 대해 공동으로 POS 예측과 캡셔닝을 수행하는 다중태스크 트리플 스트림 네트워크(MTTSNet)를 제안합니다. 제안된 모델이 여러 기준 및 경쟁 방법론 대비 더 다양한 그리고 풍부한 표현을 생성함을 보여줍니다.

밀도 높은 관계 캡셔닝: 관계 기반 캡셔닝을 위한 트리플 스트림 네트워크 | 최신 연구 논문 | HyperAI초신경