2달 전

DenseCap: 밀도 있는 캡셔닝을 위한 완전 컨볼루션 위치 결정 네트워크

Justin Johnson; Andrej Karpathy; Li Fei-Fei
DenseCap: 밀도 있는 캡셔닝을 위한 완전 컨볼루션 위치 결정 네트워크
초록

우리는 이미지에서 주요 영역을 국소화하고 자연어로 설명하는 데 필요한 밀집 캡셔닝 작업을 소개합니다. 이 밀집 캡셔닝 작업은 설명이 단일 단어로 구성될 때 객체 검출을 일반화하며, 예측된 하나의 영역이 전체 이미지를 덮는 경우 이미지 캡셔닝으로 일반화됩니다. 국소화와 설명 작업을 동시에 처리하기 위해, 우리는 외부 영역 제안 없이 단일 효율적인 전방 패스로 이미지를 처리할 수 있으며, 최적화 과정의 한 번으로 끝단까지 학습할 수 있는 Fully Convolutional Localization Network (FCLN) 아키텍처를 제안합니다. 이 아키텍처는 Convolutional Network, 새로운 밀집 국소화 계층, 그리고 라벨 시퀀스를 생성하는 Recurrent Neural Network 언어 모델로 구성됩니다. 우리는 94,000장의 이미지와 4,100,000개의 영역 기반 캡션으로 구성된 Visual Genome 데이터셋에서 우리의 네트워크를 평가하였습니다. 현재 최신 접근 방식을 기반으로 하는 베이스라인과 비교하여 생성 및 검색 설정 모두에서 속도와 정확성 향상이 관찰되었습니다.

DenseCap: 밀도 있는 캡셔닝을 위한 완전 컨볼루션 위치 결정 네트워크 | 최신 연구 논문 | HyperAI초신경