2달 전

캡션에서 시각적 개념으로 그리고 다시 캡션으로

Hao Fang; Saurabh Gupta; Forrest Iandola; Rupesh Srivastava; Li Deng; Piotr Dollár; Jianfeng Gao; Xiaodong He; Margaret Mitchell; John C. Platt; C. Lawrence Zitnick; Geoffrey Zweig
캡션에서 시각적 개념으로 그리고 다시 캡션으로
초록

본 논문은 이미지 설명을 자동으로 생성하기 위한 새로운 접근 방식을 제시합니다: 시각적 검출기, 언어 모델, 그리고 이미지 캡션 데이터셋에서 직접 학습된 다중모달 유사성 모델입니다. 우리는 캡션에 자주 등장하는 단어들, 명사, 동사, 형용사 등 다양한 품사를 포함하여 시각적 검출기를 다중 인스턴스 학습을 통해 훈련시킵니다. 단어 검출기의 출력은 최대 엔트로피 언어 모델의 조건부 입력으로 사용됩니다. 이 언어 모델은 40만 개 이상의 이미지 설명 집합에서 단어 사용 통계를 포착하도록 학습합니다. 우리는 문장 수준의 특징과 깊은 다중모달 유사성 모델을 사용하여 전역 의미를 포착하기 위해 캡션 후보들을 재순위화합니다. 우리의 시스템은 공식 마이크로소프트 COCO 벤치마크에서 최고 수준의 성능을 보여주며, BLEU-4 점수가 29.1%를 기록했습니다. 인간 심판자들이 held-out 테스트 세트에서 우리 시스템이 생성한 캡션과 다른 사람이 작성한 캡션을 비교할 때, 시스템 캡션이 동등하거나 더 우수한 품질을 보이는 경우가 34%였습니다.

캡션에서 시각적 개념으로 그리고 다시 캡션으로 | 최신 연구 논문 | HyperAI초신경