2달 전
VSE++: 어려운 부정 예제를 활용한 시각-언어 임베딩 개선
Fartash Faghri; David J. Fleet; Jamie Ryan Kiros; Sanja Fidler

초록
우리는 교차 모달 검색을 위한 시각-의미 임베딩 학습에 새로운 기술을 제시합니다. 하드 네거티브 마이닝, 구조적 예측에서의 하드 네거티브 사용, 그리고 순위 손실 함수에서 영감을 얻어, 다중 모달 임베딩에 사용되는 일반적인 손실 함수에 단순한 변경을 소개합니다. 이 변경과 함께 미세 조정(fine-tuning) 및 증강 데이터(augmented data)의 사용은 검색 성능에 상당한 향상을 가져옵니다. 우리는 MS-COCO와 Flickr30K 데이터셋을 사용하여 VSE++ 접근법의 효과를 보여주며, 기존 방법들과의 비교 및 생략 연구(ablation studies)를 통해 이를 입증합니다. MS-COCO에서 우리의 접근법은 캡션 검색에서 8.8%, 이미지 검색에서는 11.3% (R@1 기준)의 성능 향상으로 최신 방법들을 능가합니다.