
이 논문에서는 데이터-텍스트 생성(Data-to-Text Generation, DTG) 분야에서 새로운 훈련 모델인 자기 기억을 통한 자기 훈련(Self-Training from Self-Memory, STSM)을 소개합니다. 이 모델은 훈련된 모델과/또는 새로운 데이터에서 직접 추론된 출력을 포함하는 부분 집합을 통해 자기 훈련할 수 있도록 설계되었습니다. 자기 기억의 품질은 두 가지 사전 정의된 조건으로 검증됩니다: (1) D2T 모델의 출력에 모든 소스 값이 나타나는지 여부와 (2) T2D 모델의 출력이 소스 데이터로 되돌아갈 수 있는지 여부입니다. 우리는 모든 소스 값을 포함하는 더 짧은 D2T 출력을 생성하기 위해 탐욕 알고리즘(Greedy Algorithm)을 활용합니다. 이후 T2D 모델을 사용하여 이러한 출력이 입력 관계를 포착할 수 있음을 입증함으로써 텍스트를 다시 데이터로 변환할 수 있는 능력을 확인합니다. 동일한 설정에서 전체 훈련과 비교해 30%의 데이터셋으로도 D2T 모델을 경쟁력 있는 성능으로 훈련시킬 수 있습니다. 우리는 E2E NLG와 DART 두 개의 데이터셋에서 우리의 모델 실험을 수행했습니다. STSM은 DTG 작업에서 부분 집합 기억으로부터 일반화 능력을 제공하면서 훈련 데이터량을 줄이는 역할을 합니다. 궁극적으로, 이 논문이 새로운 훈련 데이터에 적응하고 이를 자기 기억 형태로 통합하는 지속 학습 솔루션에 기여하길 기대합니다. 구성된 데이터셋은 공개적으로 이용 가능하며, 다음 주소에서 접근할 수 있습니다: https://github.com/hoangthangta/STSM.