2달 전

Soft-Label Chain Conditional Random Field을 이용한 문구 지정

Jiacheng Liu; Julia Hockenmaier
Soft-Label Chain Conditional Random Field을 이용한 문구 지정
초록

문장의 개체 언급을 이미지의 해당 영역에 연결하는 것이 grounding 작업의 목표입니다. 동일한 캡션 내에서 서로 다른 언급이 어떻게 연결되어야 하는지 사이에는 명확한 의존 관계가 존재하지만, 이러한 의존 관계를 포착하기 위한 이전 구조적 예측 방법들은 근사 추론 또는 미분 불가능한 손실 함수를 사용해야 했습니다. 본 논문에서는 구절 grounding을 시퀀스 라벨링 작업으로 정식화하여 후보 영역들을 가능한 라벨로 취급하고, 인접한 언급들 간의 영역 의존성을 모델링하기 위해 신경망 체인 조건부 확률장(CRFs, Conditional Random Fields)을 사용합니다. 표준 시퀀스 라벨링 작업과 달리, 구절 grounding 작업은 여러 개의 올바른 후보 영역이 있을 수 있습니다. 이러한 다중 정답 라벨 문제를 해결하기 위해 우리는 소프트-라벨 체인 CRF(Soft-Label Chain CRFs)를 정의하고, 편리한 엔드투엔드 학습을 가능하게 하는 알고리즘을 제시합니다. 우리의 방법은 Flickr30k Entities 데이터셋에서 구절 grounding에 있어 새로운 최고 성능을 달성하였습니다. 분석 결과, 우리의 모델은 CRF가 포착한 개체 의존성과 소프트-라벨 학습 체제 모두로부터 혜택을 받는 것으로 나타났습니다. 우리의 코드는 \url{github.com/liujch1998/SoftLabelCCRF}에서 확인할 수 있습니다.

Soft-Label Chain Conditional Random Field을 이용한 문구 지정 | 최신 연구 논문 | HyperAI초신경