11일 전

TVStoryGen: 캐릭터 설명을 활용한 스토리 생성을 위한 데이터셋

Mingda Chen, Kevin Gimpel
TVStoryGen: 캐릭터 설명을 활용한 스토리 생성을 위한 데이터셋
초록

우리는 짧은 요약과 등장인물에 대한 설명 문서 세트를 바탕으로 세부적인 TV 드라마 에피소드 리캡을 생성해야 하는 스토리 생성 데이터셋인 TVStoryGen을 소개한다. 다른 스토리 생성 데이터셋과 달리, TVStoryGen은 전문 스크립트 작가들이 집필한 이야기를 포함하며, 여러 등장인물 간의 복잡한 상호작용을 특징으로 한다. TVStoryGen에서 스토리를 생성하기 위해서는 짧은 요약을 바탕으로 제공된 긴 등장인물 설명 문서들에서 관련 정보를 추출해야 한다. 또한, 생성된 스토리의 충실도(faithfulness)를 평가하기 위해 본 데이터셋을 기반으로 역방향 모델(reverse models)을 훈련하는 방안을 제안한다. TVStoryGen은 팬들이 기여한 웹사이트에서 수집하였으며, 총 26,000개의 에피소드 리캡을 확보할 수 있었으며, 평균적으로 1,868.7 토큰을 보유하고 있다. 실증적으로 우리는 계층적인 스토리 생성 접근법을 채택하였고, 등장인물 설명에 대해 오라클 콘텐츠 선택기(oracle content selectors)를 사용하는 신경망 모델이 자동 평가 지표에서 가장 우수한 성능을 보였으며, 이는 본 데이터셋이 제약 조건 하에서의 스토리 생성 연구를 촉진할 잠재력을 지닌다는 점을 보여준다. 질적 분석 결과, 가장 성능이 뛰어난 모델조차 때때로 짧은 요약에 부합하지 않는 콘텐츠를 생성하는 경우가 있음을 확인하였으며, 이는 향후 연구에 유망한 방향성을 제시한다.

TVStoryGen: 캐릭터 설명을 활용한 스토리 생성을 위한 데이터셋 | 최신 연구 논문 | HyperAI초신경