2달 전

생성 데이터 증강을 이용한 상식 추론

Yiben Yang; Chaitanya Malaviya; Jared Fernandez; Swabha Swayamdipta; Ronan Le Bras; Ji-Ping Wang; Chandra Bhagavatula; Yejin Choi; Doug Downey
생성 데이터 증강을 이용한 상식 추론
초록

최근 상식 추론 분야의 발전은 최고 성능을 달성하기 위해 대규모 인간이 주석한 훈련 데이터에 의존하고 있습니다. 그러나 훈련 예제의 수작업 주석은 비용이 많이 들며, 이는 신경망 모델이 쉽게 활용하고 과적합할 수 있는 주석 아티팩트(annotation artifacts)를 도입하는 것으로 알려져 있습니다. 우리는 저자원 환경에서 보다 정확하고 강건한 학습을 달성하기 위한 새로운 생성적 데이터 증강 방법인 G-DAUG^C를 조사하였습니다. 우리의 접근 방식은 사전 훈련된 언어 모델을 사용하여 합성 예제를 생성하고, 가장 정보가 많고 다양성을 갖춘 예제 집합을 선택하여 데이터 증강을 수행합니다. 여러 상식 추론 벤치마크 실험에서 G-DAUG^C는 역번역(back-translation) 기반의 기존 데이터 증강 방법보다 일관되게 우수한 성능을 보였으며, WinoGrande, CODAH, 그리고 CommonsenseQA에서 새로운 최신 기술(state-of-the-art)을 설정하였습니다. 또한, 분포 내(in-distribution) 정확도 개선뿐만 아니라 G-DAUG^C로 증강된 훈련은 분포 외(out-of-distribution) 일반화 능력을 향상시키며, 적대적 또는 변형된 예제에 대해 더 큰 강건성을 보여주었습니다. 우리의 분석은 G-DAUG^C가 유창한 다양한 훈련 예제 집합을 생성하며, 그 선택과 훈련 접근 방식이 성능에 중요한 역할을 함을 입증하였습니다. 우리의 연구 결과는 분포 내 학습과 분포 외 일반화를 모두 향상시키기 위한 생성적 데이터 증강에 대한 미래 연구를 장려합니다.

생성 데이터 증강을 이용한 상식 추론 | 최신 연구 논문 | HyperAI초신경