2달 전

문맥과 속성 기반 밀도 캡셔닝

Guojun Yin; Lu Sheng; Bin Liu; Nenghai Yu; Xiaogang Wang; Jing Shao
문맥과 속성 기반 밀도 캡셔닝
초록

밀도 캡셔닝은 의미 있는 영역을 동시에 위치 결정하고, 이러한 관심 영역(ROIs)을 자연어로 짧은 문구나 문장으로 설명하는 것을 목표로 합니다. 이전 연구들은 뛰어난 진전을 보였지만, 종종 개구 문제에 취약한 경우가 많습니다. 이는 하나의 ROI 내부의 특징으로 생성된 캡션과 입력 이미지의 주변 맥락 간에 맥락적 일관성이 부족하기 때문입니다. 본 연구에서는 인접한 내용에서 대상 ROI로의 다중 규모 메시지 전달을 기반으로 한 맥락 추론을 조사합니다. 이를 위해 1) 맥락 시각 채굴 모듈과 2) 다수준 속성 기반 설명 생성 모듈로 구성된 새로운 엔드투엔드 맥락 및 속성 기반 밀도 캡셔닝 프레임워크를 설계하였습니다. 캡션이 종종 언어적 속성(누가, 무엇이, 어디서와 같은)과 함께 나타남을 고려하여, 계층적 언어적 속성을 통해 보조적인 감독을 통합하여 학습된 캡션의 독창성을 강화하였습니다. Visual Genome 데이터셋에서 수행된 광범위한 실험 및 축소 연구는 제안된 모델이 최신 방법들과 비교하여 우수함을 입증하였습니다.

문맥과 속성 기반 밀도 캡셔닝 | 최신 연구 논문 | HyperAI초신경