한 달 전

깊은 시각-의미적 정렬을 이용한 이미지 설명 생성

Andrej Karpathy; Li Fei-Fei
깊은 시각-의미적 정렬을 이용한 이미지 설명 생성
초록

우리는 이미지와 그 영역의 자연어 설명을 생성하는 모델을 제시합니다. 우리의 접근 방식은 이미지와 문장 설명의 데이터셋을 활용하여 언어와 시각적 데이터 간의 다중 모달 대응성을 학습합니다. 우리의 정렬 모델은 이미지 영역에 대한 컨볼루션 신경망(Convolutional Neural Networks), 문장에 대한 양방향 순환 신경망(bidirectional Recurrent Neural Networks) 그리고 두 모달을 다중 모달 임베딩(multimodal embedding)을 통해 정렬하는 구조화된 목적함수를 기반으로 합니다. 그런 다음, 추론된 정렬을 사용하여 이미지 영역의 새로운 설명을 생성하도록 학습하는 다중 모달 순환 신경망(Multimodal Recurrent Neural Network) 아키텍처를 설명합니다. 우리는 Flickr8K, Flickr30K 및 MSCOCO 데이터셋에서 검색 실험에서 우리 정렬 모델이 최고 수준의 결과를 생성한다고 보여줍니다. 또한, 생성된 설명이 전체 이미지와 새로운 지역 수준 주석 데이터셋에서 검색 기준선보다 크게 우수하다는 것을 입증합니다.

깊은 시각-의미적 정렬을 이용한 이미지 설명 생성 | 최신 연구 논문 | HyperAI초신경