2달 전
Flickr30k 엔티티: 더 풍부한 이미지-문장 모델을 위한 영역-구문 대응 수집
Bryan A. Plummer; Liwei Wang; Chris M. Cervantes; Juan C. Caicedo; Julia Hockenmaier; Svetlana Lazebnik

초록
Flickr30k 데이터셋은 문장 기반 이미지 설명의 표준 벤치마크로 자리 잡았습니다. 본 논문에서는 Flickr30k Entities를 소개합니다. 이 데이터셋은 158,000개의 캡션을 포함하는 Flickr30k에 244,000개의 공유 참조 체인을 추가하여, 동일한 이미지에 대한 다른 캡션에서 같은 엔티티가 언급되는 부분을 연결하고, 이를 276,000개의 수작업으로 주석된 경계 상자와 연관시킵니다. 이러한 주석은 자동 이미지 설명과 지상화된 언어 이해 분야에서 지속적인 발전을 위해 필수적입니다. 이를 통해 우리는 텍스트 엔티티 언급의 이미지 내 위치 결정을 위한 새로운 벤치마크를 정의할 수 있습니다. 우리는 이 작업을 위한 강력한 베이스라인을 제시하는데, 이는 이미지-텍스트 임베딩, 일반 객체 검출기, 색상 분류기 및 더 큰 객체 선택에 대한 편향을 결합합니다. 우리의 베이스라인이 복잡한 최신 모델들과 정확도 면에서 비슷하지만, 이미지-문장 검색 등의 작업에서 쉽게 성능 개선으로 이어지지는 않는다는 점을 보여줍니다. 이는 현재 방법들의 한계를 강조하며, 추가 연구의 필요성을 시사합니다.