BERT가 RuCoLA를 먹을 수 있을까? 위상 데이터 분석을 통한 설명

본 논문은 트랜스포머 언어 모델(LMs)이 적합성 분류를 위해 미세 조정(fine-tuning)될 때 어떻게 언어학적 특징을 포착하는지 조사합니다. 본 연구는 자연어 처리(NLP)에서 위상 데이터 분석(TDA)의 최선의 방법론을 사용합니다: 우리는 주의력 행렬(attention matrices)로부터 유향 주의력 그래프(directed attention graphs)를 구성하고, 이들로부터 위상 특징(topological features)을 도출하여 선형 분류기(linear classifiers)에 입력합니다. 우리는 새로운 두 가지 특징인 화성도(chordality)와 매칭 수(matching number)를 소개하며, TDA 기반 분류기가 미세 조정 베이스라인(fine-tuning baselines)보다 우수한 성능을 보임을 입증합니다. 또한 영어와 러시아어로 이루어진 두 개의 데이터셋, CoLA와 RuCoLA를 실험 대상으로 삼았습니다. 이 두 언어는 타입적으로 다르게 구분되는 언어입니다. 여기에 더해, LMs의 미세 조정 과정에서 주의력 모드(attention mode)의 변화를 감지하고, LMs의 예측 신뢰도(prediction confidences)를 정의하며, 개별 헤드(individual heads)를 세부 문법 현상(fine-grained grammar phenomena)과 연관시키기 위한 여러 가지 블랙박스 검증(black-box introspection) 기술을 제안합니다. 우리의 결과는 단일 언어 LMs가 적합성 분류 작업에서 어떻게 동작하는지를 이해하는 데 기여하며, 주의력 헤드들의 기능적 역할에 대한 통찰력을 제공하고, LMs 분석을 위한 TDA 기반 접근 방식의 장점을 강조합니다. 우리는 코드와 실험 결과를 공개하여 추가적인 활용을 촉구합니다.