11일 전

의도 탐지에 대한 포인트와이즈 V정보를 활용한 선택적 인컨텍스트 데이터 증강

Yen-Ting Lin, Alexandros Papangelis, Seokhwan Kim, Sungjin Lee, Devamanyu Hazarika, Mahdi Namazifar, Di Jin, Yang Liu, Dilek Hakkani-Tur
의도 탐지에 대한 포인트와이즈 V정보를 활용한 선택적 인컨텍스트 데이터 증강
초록

이 연구는 의도 탐지(intent detection)를 위한 문맥 내 데이터 증강(in-context data augmentation)에 초점을 맞추고 있다. 대규모 사전 학습된 언어 모델(PLM)을 활용한 문맥 내 프롬프팅을 통한 데이터 증강만으로는 성능 향상이 이루어지지 않는다는 점을 발견한 후, PLM과 점별 V정보(PVI, pointwise V-information)라는 새로운 메트릭을 기반으로 한 접근법을 제안한다. PVI는 데이터 포인트가 모델 학습에 얼마나 유용한지를 측정할 수 있는 지표이다. 본 방법은 먼저 소규모 초기 학습 데이터 세트를 기반으로 PLM을 피니팅(fine-tune)한 후, 주어진 의도에 대응하는 새로운 문장(utterance)을 합성한다. 이후 PVI를 기반으로 의도 인지 필터링(intent-aware filtering)을 수행하여 하류의 의도 분류기 학습에 도움이 되지 않는 데이터 포인트를 제거한다. 따라서 본 방법은 대규모 언어 모델의 표현 능력을 활용하여 다양성이 풍부한 학습 데이터를 생성할 수 있다. 실험 결과, 본 방법은 3개의 도전적인 의도 탐지 데이터셋에서 소량 샘플(few-shot) 설정 하에서 최첨단 성능을 달성하며, 5샷(5-shot)에서는 평균 1.28%의 절대적 성능 향상, 10샷(10-shot)에서는 평균 1.18%의 절대적 성능 향상을 보였다. 또한 전체 샘플(full-shot) 설정에서도 최첨단 성능과 거의 동등한 결과를 기록하였으며(평균적으로 0.01% 이내의 절대적 차이), 경쟁 모델들과의 성능 차이가 거의 없었다.

의도 탐지에 대한 포인트와이즈 V정보를 활용한 선택적 인컨텍스트 데이터 증강 | 최신 연구 논문 | HyperAI초신경