첫 번째 훈련을 통해 생성하고, 그 생성을 통해 훈련하기: 소수 샘플 NLI를 위한 UnitedSynT5

자연어 추론(Natural Language Inference, NLI) 작업은 문장 쌍 간의 관계를 식별하는 것을 요구하며, 일반적으로 함의(entailment), 모순(contradiction), 중립(neutrality)로 분류된다. 현재 최고 성능(SOTA) 모델인 함의 소수 학습(Entailment Few-Shot Learning, EFL)은 스탠포드 자연어 추론(SNLI) 데이터셋에서 93.1%의 정확도를 달성하고 있으나, 데이터셋 자체의 한계로 인해 추가적인 성능 향상은 제한적이다. 이를 해결하기 위해 우리는 합성 데이터 증강을 활용한 새로운 접근법을 제안한다. 이를 통해 데이터셋의 다양성과 복잡성을 향상시킨다. 본 연구에서는 EFL의 고도화된 확장 모델인 UnitedSynT5를 제시하며, T5 기반 생성기(T5-based generator)를 이용해 추가적인 전제-가설 쌍을 합성하고, 엄격한 정제 과정을 거쳐 학습 데이터에 통합한다. 이러한 증강된 예시는 EFL 프레임워크 내에서 처리되며, 일관성을 위해 레이블이 가설에 직접 내장된다. 본 연구에서는 이 확장된 데이터셋을 기반으로 GTR-T5-XL 모델을 학습하여 SNLI 데이터셋에서 94.7%의 정확도, E-SNLI 데이터셋에서 94.0%, MultiNLI 데이터셋에서 92.6%의 정확도를 기록하며 기존 SOTA 모델을 초과하는 새로운 기준을 수립했다. 본 연구는 합성 데이터 증강이 NLI 모델 성능 향상에 미치는 잠재력을 입증하며, 자연어 이해 작업의 지속적인 발전을 위한 새로운 방향을 제시한다.