16일 전

요약 평가에 대한 포괄적인 회피 공격

Wenchuan Mu, Kwan Hui Lim
요약 평가에 대한 포괄적인 회피 공격
초록

요약문의 자동 평가는 요약 생성 모델의 개발을 안내하는 데 있어 매우 중요하다. 그러나 평가 과정은 유창성, 문법, 원문과의 텍스트 함의 관계 등 다양한 측면을 포함하기 때문에 복잡하다. 그러나 기존에는 요약 평가가 정확성과 강건성(robustness)을 연구할 수 있는 머신러닝 작업으로 여겨지지 않았다. 본 연구에서는 자동 평가를 회귀 머신러닝 문제의 맥락에 두고, 침투 공격(evasion attack)을 수행함으로써 평가 시스템의 강건성을 탐구한다. 공격 시스템은 각 입력에 대해 요약문이 아닌 문자열을 예측하며, 이러한 비요약 문자열은 ROUGE, METEOR, BERTScore와 같은 가장 널리 사용되는 평가 지표에서 우수한 요약 모델과 경쟁 가능한 점수를 기록한다. 또한, ROUGE-1과 ROUGE-L에서는 최신 요약 방법보다 "우수한" 성능을 보이며, METEOR에서는 두 번째로 높은 점수를 기록한다. 더불어 BERTScore에 대해 백도어 공격이 관찰되었으며, 간단한 트리거를 사용함으로써 어떤 자동 요약 방법보다도 높은 점수를 얻을 수 있었다. 본 연구에서 제시된 침투 공격은 현재 평가 시스템의 시스템 수준에서 낮은 강건성을 드러낸다. 이러한 공격 방식을 부각시킴으로써 요약 평가 기법의 발전이 촉진되기를 기대한다.