2달 전
opinon summarization을 위한 Convex Aggregation
Hayate Iso; Xiaolan Wang; Yoshihiko Suhara; Stefanos Angelidis; Wang-Chiew Tan

초록
최근 텍스트 오토인코더의 발전으로 잠재 공간의 품질이 크게 향상되었습니다. 이는 모델이 집계된 잠재 벡터로부터 문법적이고 일관된 텍스트를 생성할 수 있게 합니다. 이러한 특성의 성공적인 응용 사례로, 비지도 감정 요약 모델은 입력의 집계된 잠재 벡터를 디코딩하여 요약을 생성합니다. 좀 더 구체적으로, 이들은 단순 평균을 통해 집계를 수행합니다. 그러나, 벡터 집계 단계가 생성 품질에 어떻게 영향을 미치는지는 잘 알려져 있지 않습니다. 본 연구에서는 잠재 공간과 생성된 요약을 검토함으로써 일반적으로 사용되는 단순 평균 접근 방식을 재검토하였습니다. 우리는 텍스트 오토인코더가 예기치 않은 $L_2$-노름 축소($L_2$-norm shrinkage)로 인해 단순 평균화된 잠재 벡터에서 지나치게 일반적인 요약을 생성하는 경향이 있다는 것을 발견했습니다. 이를 요약 벡터 변질(summary vector degeneration)이라고 지칭합니다. 이 문제를 해결하기 위해, 입력-출력 단어 중복(input-output word overlap)을 사용하여 잠재 벡터 집계를 위한 입력 조합을 탐색하는 프레임워크인 Coop를 개발하였습니다. 실험 결과, Coop는 요약 벡터 변질 문제를 성공적으로 완화하고 두 개의 감정 요약 벤치마크에서 새로운 최고 성능을 달성하였습니다. 코드는 \url{https://github.com/megagonlabs/coop}에서 제공됩니다.