15일 전

Split의 중요성: GNN 성능 향상을 위한 평탄한 최소값 방법

Nicolas Lell, Ansgar Scherp

초록

신경망을 훈련할 때, 주어진 훈련 데이터를 기반으로 최적화를 수행하며, 새로운 또는 미리 보지 못한 테스트 데이터에 잘 일반화되기를 기대한다. 손실 경관(loss landscape)에서 동일한 절대값을 가진 경우, 평탄한 최소값(flat minimum)은 날카로운 최소값(sharp minimum)보다 더 잘 일반화된다고 여겨진다. 평탄한 최소값을 탐색하기 위한 방법들은 주로 이미지와 같은 독립적이고 동일하게 분포된(i.i.d.) 데이터에 대해 연구되어 왔다. 그러나 그래프는 정점들이 간선으로 연결되어 있기 때문에 본질적으로 i.i.d.가 아니다. 본 연구에서는 그래프 신경망(GNN) 훈련을 위한 평탄한 최소값 탐색 방법들과 그 조합을 탐구한다. 우리는 GCN과 GAT를 사용하며, Graph-MLP를 더 많은 층과 더 큰 그래프에 적합하도록 확장한다. 전이적(transductive) 및 유도적(inductive) 훈련 절차에서 소규모 및 대규모의 인용(citation), 공동 구매(co-purchase), 단백질(protein) 데이터셋에 대해 다양한 훈련-테스트 분할(train-test split)을 기반으로 실험을 수행한다. 결과적으로, 훈련-테스트 분할이 무작위로 설정된 경우, 평탄한 최소값 방법이 GNN 모델의 성능을 2점 이상 향상시킬 수 있음을 확인하였다. Shchur 등(2018)의 주장과 같이, 무작위 분할은 GNN 모델에 대한 공정한 평가를 위해 필수적이다. 반면에 'Planetoid'와 같은 고정된(fixed) 분할은 편향을 유발할 수 있다. 종합적으로 본 연구는 GNN에서 평탄한 최소값 방법의 개선 및 공정한 평가에 대한 중요한 통찰을 제공한다. 실무자들에게는 특히 조기 정지(early stopping)를 사용할 경우, 항상 가중치 평균화 기법(weight averaging)을 사용할 것을 권장한다. 가중치 평균화 기법은 항상 최고의 성능을 보장하진 않지만, 하이퍼파라미터에 덜 민감하며, 추가적인 훈련이 필요 없으며 원래 모델을 변경하지 않는다. 모든 소스 코드는 https://github.com/Foisunt/FMMs-in-GNNs 에 공개되어 있다.