2달 전

애니메이션 그림은 최소한 천 단어를 말한다: 다중 모달 대화에서 GIF 기반 응답 선택하기

Xingyao Wang; David Jurgens

초록

온라인 대화는 텍스트뿐만 아니라 다양한 요소를 포함합니다. 최근에는 밈과 애니메이션 GIF와 같은 이미지 기반 응답이 문화적으로 인식되며 종종 유머러스한 방식으로 대화에 사용되고 있습니다. 그러나 자연어 처리(NLP)가 다중 모달 모델로 확장됨에도 불구하고, 대화형 대화 시스템은 주로 텍스트 응답 생성에만 초점을 맞추고 있습니다. 본 연구에서는 156만 건의 텍스트-GIF 대화 차례를 포함하는 새로운 데이터셋을 소개하며, GIF 기반 응답 선택을 위한 새로운 다중 모달 대화 모델 '페페 더 킹 프론'을 제안합니다. 우리는 이 모델이 관련성 있고 고품질의 GIF 응답을 생성함을 보여주며, 실제 사용자들에게 여러 모델의 응답을 제공한 큰 규모의 무작위 통제 실험에서 우리 모델의 GIF 응답이 커뮤니티에서 상당히 긍정적으로 받아들여짐을 입증하였습니다.