
초록
최근 개방형 대화 에이전트 분야의 연구에서는 사전 훈련 데이터와 모델 크기를 대규모로 확장함으로써 모델의 몰입도 및 인간다움 지표에서 상당한 향상이 가능함이 입증되었다 (Adiwardana 등, 2020; Roller 등, 2020). 그러나 인간과 유사한 능력을 갖춘 에이전트를 구축하기 위해서는 텍스트 처리를 넘어서야 한다. 특히 중요한 주제는 이미지를 인식하고 인식한 내용을 언어로 전달할 수 있는 능력이다. 인간과 다중 모달 대화를 효과적으로 수행할 목적으로, 최신 개방형 대화 에이전트의 구성 요소와 최신 시각 모델의 구성 요소를 결합하는 방식을 탐구한다. 다양한 이미지 융합 방식과 도메인 적응형 사전 훈련 및 미세조정 전략을 도입하고, 최적의 모델이 기존 강력한 다중 모달 대화 모델보다 우수한 성능을 보이며, 동시에 텍스트 기반 대화에서는 이전의 텍스트 전용 BlenderBot (Roller 등, 2020)과 동등한 성능을 유지함을 보여준다. 또한 최종 모델에 안전성 관련 구성 요소를 추가로 탐구하고 통합하여, 이러한 노력이 몰입도 지표 측면에서 모델 성능을 저하시키지 않음을 입증한다.