
초록
장기적으로 기계가 인간과 대화를 나눌 수 있는 목표를 달성하기 위해서는 우리의 모델이 대화 상대의 관심을 끌어야 합니다. 주어진 사진을 바탕으로 대화를 진행하는 이미지 기반 커뮤니케이션은 인간에게 자연스럽게 호소력이 있는 방식입니다(Hu et al., 2014). 본 연구에서는 이러한 목표를 위해 대규모 아키텍처와 데이터셋을 조사합니다. 최신 이미지 및 텍스트 표현을 사용하여 다양한 방법으로 구성 요소를 융합한 신경망 아키텍처 집합을 테스트합니다. 이러한 모델을 테스트하기 위해, 제공된 감정적 분위기나 스타일에 따라 역할을 연기하도록 요청받은 화자가 참여한 이미지 기반 인간-인간 대화 데이터셋을 수집했습니다. 이러한 특성이 참여도에서 중요한 요소임이 알려져 있기 때문입니다(Guo et al., 2019). 우리의 데이터셋인 Image-Chat은 202,000개의 이미지를 사용하여 202,000개의 대화가 이루어졌으며, 215개의 가능한 스타일 특성을 포함하고 있습니다. 자동 메트릭과 인간 평가를 통한 참여도 측정 결과, 우리의 접근법이 효과적임을 보여주었습니다. 특히, 기존 IGC(Interactive Grounded Conversation) 과제에서 최고 성능을 달성했으며, Image-Chat 테스트 세트에서 우리 최고 성능 모델은 인간과 거의 비슷한 수준으로 평가되었습니다(47.7%의 경우 선호됨).