2달 전

이미지 재구성을 통한 텍스트 구문의 지상화

Anna Rohrbach; Marcus Rohrbach; Ronghang Hu; Trevor Darrell; Bernt Schiele
이미지 재구성을 통한 텍스트 구문의 지상화
초록

시각적 콘텐츠에서 임의의 자유형 텍스트 구문을 정착(즉, 위치 파악)하는 것은 인간-컴퓨터 상호작용과 이미지-텍스트 참조 해결에 많은 응용 분야를 가진 어려운 문제입니다. 구문의 실제 공간 위치 정보를 제공하는 데이터셋이 거의 없기 때문에, 지도가 없거나 적은 상태에서 학습하는 것이 바람직합니다. 우리는 주어진 구문을 어텐션 메커니즘을 사용하여 재구성함으로써 정착을 학습하는 새로운 접근법을 제안합니다. 이 어텐션 메커니즘이 잠재적일 수도 있고 직접 최적화될 수도 있습니다. 훈련 과정에서 우리의 접근법은 순환 신경망 언어 모델을 사용하여 구문을 인코딩한 후, 입력된 구문을 재구성하기 위해 관련 이미지 영역에 주목하도록 학습합니다. 테스트 시에는 올바른 주목, 즉 정착이 평가됩니다. 정착 지도가 가능하다면, 어텐션 메커니즘에 대한 손실 함수를 통해 직접 적용할 수 있습니다. 우리는 Flickr 30k 엔티티와 ReferItGame 데이터셋에서 다른 수준의 지도(지도가 없는 경우, 부분적인 지도, 완전한 지도)를 사용하여 우리 접근법의 효과성을 입증하였습니다. 우리의 지도 변형은 두 데이터셋 모두에서 기존 최신 연구보다 크게 개선되었습니다.

이미지 재구성을 통한 텍스트 구문의 지상화 | 최신 연구 논문 | HyperAI초신경