17일 전

PhotoChat: 이미지-텍스트 공동 모델링을 위한 사진 공유 행동을 포함한 인간-인간 대화 데이터셋

Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, Jindong Chen
PhotoChat: 이미지-텍스트 공동 모델링을 위한 사진 공유 행동을 포함한 인간-인간 대화 데이터셋
초록

우리는 온라인 메시징 환경에서 사진 공유 행동에 초점을 맞춘 최초의 대화 데이터셋인 PhotoChat을 소개한다. PhotoChat은 12,000개의 대화를 포함하며, 각 대화는 대화 중에 공유된 사용자 사진과 쌍을 이룬다. 이 데이터셋을 기반으로 이미지-텍스트 모델링 연구를 촉진하기 위한 두 가지 작업을 제안한다. 첫째, 다음 대화 턴에서 사진을 공유하려는 의도를 예측하는 사진 공유 의도 예측 작업이며, 둘째, 대화 맥락에 가장 부합하는 사진을 검색하는 사진 검색 작업이다. 또한, 두 작업 모두 최신 기술 기반의 베이스라인 모델을 제공하고, 각 모델의 벤치마크 성능을 보고한다. 최적의 사진 검색 모델은 후보 1,000개 중 Recall@1에서 10.4%의 성능을 기록하였으며, 최적의 사진 공유 의도 예측 모델은 F1 점수 58.1%를 달성하였다. 이는 본 데이터셋이 실제 세계의 흥미롭고 도전적인 문제를 잘 반영하고 있음을 시사한다. 우리는 본 연구 공동체의 향후 연구 활동을 지원하기 위해 PhotoChat을 공개한다.