
초록
형식화 스타일 변환(Formality Style Transfer, FST)은 문장의 의미를 변경하지 않은 채 비격식적인 문장을 격식화된 문장으로 재구성하는 작업입니다. 기존의 평행 데이터셋에서 데이터 부족 문제를 해결하기 위해 이전 연구들은 주로 목표 측면의 라벨이 없는 문장을 활용하기 위한 사이클 재구성 방안을 채택하였습니다. 본 연구에서는 일관성 훈련을 기반으로 소스 측면의 라벨이 없는 문장을 더 효과적으로 활용할 수 있는 간단하면서도 효율적인 준감독 학습 프레임워크를 제안합니다. 구체적으로, 본 접근법은 소스 측면의 비격식적 문장에서 얻은 가짜 평행 데이터를 증강시키는데, 이를 위해 모델이 그 문장의 변형된 버전에 대해 유사한 출력을 생성하도록 강제합니다. 또한, 우리는 다양한 데이터 변형 방법들의 영향을 경험적으로 검토하고, 우리의 프레임워크를 개선하기 위한 효과적인 데이터 필터링 전략을 제안하였습니다. GYAFC 벤치마크에서 수행한 실험 결과는 우리의 접근법이 평행 데이터의 40% 미만만 사용해도 최신 성능을 달성할 수 있음을 보여줍니다.