18일 전

설명을 요청하는 프롬프트는 적대적 NLI 성능을 향상시킨다. 이는 참이다. 왜냐하면 이는 표면적인 단서를 약화시키기 때문이다.

{Kentaro Inui, Benjamin Heinzerling, Ana Brassard, Pride Kavumba}
설명을 요청하는 프롬프트는 적대적 NLI 성능을 향상시킨다. 이는 참이다. 왜냐하면 이는 표면적인 단서를 약화시키기 때문이다.
초록

설명 프롬프트는 언어 모델에게 주어진 입력에 특정 레이블을 할당할 뿐만 아니라, 그 레이블을 뒷받침하는 자유 텍스트 형식의 설명을 생성하도록 요청한다. 예를 들어, “이것은 설명이므로 레이블이다”와 같은 형식이다. 이와 같은 프롬프트는 처음에 모델의 해석 가능성(interpretability)을 향상시키기 위해 도입되었지만, 본 연구에서는 설명 프롬프트가 자연어 추론(NLI, Natural Language Inference) 벤치마크에서 적대적 변형(adversarial perturbations)에 대한 강건성(robustness)을 개선함을 보여준다. 레이블만 요청하는 전통적인 프롬프트 방식에 비해, 설명 프롬프트를 사용할 경우 적대적 벤치마크에서 일관되게 더 우수한 성능을 기록하며, 특히 Adversarial Natural Language Inference, Counterfactually-Augmented Natural Language Inference, SNLI-Hard 데이터셋에서 최신 기술(SOTA, State of the Art)을 초월하는 성능을 보였다. 우리는 이러한 강건성 향상이 설명 생성을 요구함으로써 표면적인 단서(surface-level cues)의 영향이 약화되기 때문이라고 주장한다. 구체적으로, 레이블만 요청하는 설정에서는 정답을 매우 잘 예측하는 단일 토큰들이, 설명을 생성해야 하는 상황에서는 더 이상 정보가 없는 것으로 작용하게 된다.