17일 전
PhotoChat: 이미지-텍스트 공동 모델링을 위한 사진 공유 행동을 포함한 인간-인간 대화 데이터셋
Xiaoxue Zang, Lijuan Liu, Maria Wang, Yang Song, Hao Zhang, Jindong Chen

초록
우리는 온라인 메시징 환경에서 사진 공유 행동에 초점을 맞춘 최초의 대화 데이터셋인 PhotoChat을 소개한다. PhotoChat은 12,000개의 대화를 포함하며, 각 대화는 대화 중에 공유된 사용자 사진과 쌍을 이룬다. 이 데이터셋을 기반으로 이미지-텍스트 모델링 연구를 촉진하기 위한 두 가지 작업을 제안한다. 첫째, 다음 대화 턴에서 사진을 공유하려는 의도를 예측하는 사진 공유 의도 예측 작업이며, 둘째, 대화 맥락에 가장 부합하는 사진을 검색하는 사진 검색 작업이다. 또한, 두 작업 모두 최신 기술 기반의 베이스라인 모델을 제공하고, 각 모델의 벤치마크 성능을 보고한다. 최적의 사진 검색 모델은 후보 1,000개 중 Recall@1에서 10.4%의 성능을 기록하였으며, 최적의 사진 공유 의도 예측 모델은 F1 점수 58.1%를 달성하였다. 이는 본 데이터셋이 실제 세계의 흥미롭고 도전적인 문제를 잘 반영하고 있음을 시사한다. 우리는 본 연구 공동체의 향후 연구 활동을 지원하기 위해 PhotoChat을 공개한다.