규칙 기반 휴리스틱의 러시아 SuperGLUE 과제 해결에서의 비합리적인 효과성

SuperGLUE와 같은 리더보드는 현대 언어 모델 간 공정한 비교를 위한 표준 기준을 제공하므로, 자연어 처리(NLP) 분야의 적극적인 발전을 이끄는 중요한 동기로 여겨진다. 이러한 리더보드는 세계 최고의 엔지니어링 팀들과 그들의 자원을 결집시켜 일반 언어 이해를 위한 일련의 과제를 해결하도록 촉진해왔다. 이들 리더보드의 성능 점수는 종종 인간 수준에 근접하거나 이를 초월했다고 주장되기도 하며, 이러한 결과는 벤치마크 데이터셋이 기계 학습 기반 언어 모델이 활용할 수 있는 통계적 신호(통계적 힌트)를 포함하고 있는지 여부에 대한 더 깊이 있는 분석을 촉발시켰다. 영어 데이터셋의 경우, 종종 데이터 주석 과정에서 발생한 아티팩트(예: 특정 텍스트 패턴과 레이블 간의 비자연스러운 상관관계)가 존재함이 밝혀졌으며, 이는 매우 간단한 규칙을 통해 특정 과제를 해결하고 경쟁적인 순위를 달성할 수 있음을 의미한다.본 논문에서는 러시아어 자연어 이해를 위한 최근에 발표된 벤치마크 및 리더보드인 러시아 SuperGLUE(RSG)에 대해 유사한 분석을 수행한다. 우리는 RSG의 테스트 데이터셋이 단순한 힌트(얕은 히우리스틱)에 취약하다는 점을 보여주며, 이러한 간단한 규칙 기반 접근법이 GPT-3나 BERT와 같은 유명한 사전 훈련된 언어 모델의 성능을 상회하거나 근접하는 결과를 낼 수 있음을 입증한다. 가장 단순한 설명으로 볼 수 있듯이, RSG 리더보드에서 최고 성능을 기록한 모델들의 성능 중 상당 부분은 이러한 얕은 히우리스틱을 활용한 결과이며, 진정한 언어 이해와는 무관할 가능성이 높다. 본 연구는 RSG 데이터셋을 개선할 수 있는 일련의 제안을 제시함으로써, 러시아어 NLU 분야에서의 실제 진보를 더욱 정확하게 반영할 수 있도록 리더보드의 신뢰성과 대표성을 높이는 데 기여하고자 한다.