2달 전

다중 작업 트리플 스트림 네트워크를 통한 밀도 높은 관계적 이미지 캡셔닝

Dong-Jin Kim; Tae-Hyun Oh; Jinsoo Choi; In So Kweon
다중 작업 트리플 스트림 네트워크를 통한 밀도 높은 관계적 이미지 캡셔닝
초록

우리는 밀도 높은 관계 캡셔닝(dense relational captioning)을 소개합니다. 이 새로운 이미지 캡셔닝 작업은 시각적 장면 내 객체 간의 관계 정보에 대한 여러 개의 캡션을 생성하는 것을 목표로 합니다. 관계 캡셔닝은 각 객체 조합 간의 관계에 대해 명시적인 설명을 제공합니다. 이 프레임워크는 다양성과 정보량 면에서 우수하여, 관계 기반의 포괄적인 이미지 이해를 가능하게 합니다. 예를 들어, 관계 제안 생성(relational proposal generation) 등이 있습니다. 객체 간의 관계 이해를 위해 품사(POS; 즉, 주어-목적어-동사 범주)는 캡션 내 단어들의 인과 순서를 안내하는 유용한 사전 정보가 될 수 있습니다. 이를 위해 우리는 캡션 생성뿐만 아니라 각 단어의 품사를 이해하도록 학습시키는 프레임워크를 강제합니다. 이를 실현하기 위해, 우리는 세 가지 재귀 유닛이 각 품사를 담당하는 다중태스크 트리플 스트림 네트워크(Multi-Task Triple-Stream Network; MTTSNet)를 제안합니다. 이 네트워크는 올바른 캡션과 각 단어의 품사를 동시에 예측하여 학습됩니다. 또한, 우리는 명시적인 관계 모듈로 객체 임베딩을 조절함으로써 MTTSNet의 성능이 향상될 수 있음을 발견했습니다. 대규모 데이터셋과 여러 지표를 통해 광범위한 실험 분석을 수행하여 제안된 모델이 더 다양하고 풍부한 캡션을 생성할 수 있음을 입증하였습니다. 마지막으로, 우리의 프레임워크가 전체 이미지 캡셔닝, 장면 그래프 생성 및 검색 작업에 어떻게 적용되는지를 제시합니다.

다중 작업 트리플 스트림 네트워크를 통한 밀도 높은 관계적 이미지 캡셔닝 | 최신 연구 논문 | HyperAI초신경