
초록
텍스트 분류는 자연어 처리에서 중요한 고전적인 문제입니다. 시퀀스와 같은 규칙적 그리드에서 합성곱을 적용한 합성곱 신경망(CNN)을 분류에 활용한 연구가 여러 건 수행되었습니다. 그러나, 임의의 그래프와 같은 비규칙적 그리드에서 합성곱을 적용한 그래프 합성곱 신경망(GCN)을 이 작업에 활용한 연구는 아직 제한적이었습니다. 본 연구에서는 텍스트 분류를 위해 그래프 합성곱 신경망을 사용하는 방법을 제안합니다. 우리는 단어 공기현상과 문서-단어 관계를 기반으로 한 코퍼스에 대한 단일 텍스트 그래프를 구축하고, 그 다음 코퍼스를 위한 텍스트 그래프 합성곱 신경망(Text GCN)을 학습합니다. 우리의 Text GCN은 단어와 문서에 대한 원-핫 표현으로 초기화되며, 알려진 문서 클래스 라벨의 감독 하에 단어와 문서 모두의 임베딩을 공동으로 학습합니다. 다수의 벤치마크 데이터셋에 대한 실험 결과는 외부 단어 임베딩이나 지식 없이 순수한 Text GCN이 텍스트 분류에서 최신 방법론들을 능가함을 보여줍니다. 또한, Text GCN은 예측력 있는 단어 및 문서 임베딩도 학습합니다. 더불어 실험 결과는 훈련 데이터의 비율을 낮출수록 Text GCN이 최신 비교 방법론들보다 더욱 두드러지게 개선됨을 나타내며, 이는 텍스트 분류에서 적은 훈련 데이터에도 강건성을 보이는 Text GCN의 특성을 시사합니다.