HyperAI초신경

그로킹

딥러닝 분야에서는그로킹(Grokking)은 신경망의 학습 과정에서 나타나는 현상을 말하는데, 학습 오차가 줄어든 후에도 오랫동안 좋은 일반화를 이룰 수 있다는 의미입니다. 그로킹 현상에 대해 흥미로운 점은 그것이 역동적인 현상이라는 점입니다. 즉, 훈련 손실과 테스트 손실 사이의 격차는 훈련 중간에만 존재합니다. 이해할 수 있는 네트워크는 결국 일반화되어 훈련 손실과 테스트 손실이 훈련이 끝날 무렵에는 모두 매우 낮아질 것입니다.

이러한 현상은 신경망이 초기 단계에서 주로 데이터의 기본적인 특징이나 패턴을 학습하여 훈련 손실이 빠르게 감소할 수 있음을 시사합니다. 이후 단계에서는 네트워크가 데이터의 더 깊은 특징과 구조를 점차 이해하기 시작하므로 테스트 손실이 상당히 감소하기 시작합니다. 이러한 현상은 네트워크가 간단한 기능 학습 단계에서 보다 복잡한 기능 학습 단계로 전환된다는 것을 의미할 수도 있고, 네트워크 학습 프로세스의 역동적인 변화를 반영할 수도 있습니다.

"게으른 훈련 역학에서 풍부한 훈련 역학으로의 전환으로서의 그로킹"이 논문에서는 그로킹 현상(신경망의 테스트 손실이 훈련 손실 이후 크게 떨어지는 현상)이 초기의 "지연" 훈련에서 이후의 "풍부한" 기능 학습으로의 전환으로 인해 발생한다고 제안합니다. 저자는 2계층 네트워크에서 다항식 회귀를 사용하여 네트워크가 초기 특징으로 데이터에 맞추는 것에서 더 나은 일반화를 달성하기 위해 새로운 특징을 학습하는 것으로 전환할 때 그로킹이 발생한다는 것을 보여줍니다. 그들은 특징 학습 속도와 초기 특징 정렬이 지연된 일반화의 핵심이라고 제안하는데, 이 개념은 보다 복잡한 신경망에도 적용될 수 있습니다.

그로킹 현상은 커널 학습 메커니즘에서 기능 학습 메커니즘으로의 전환으로 볼 수 있습니다.특징은 신경망의 훈련 손실이 테스트 손실보다 훨씬 일찍 감소한다는 것입니다. 이는 네트워크가 게으른 훈련 동적 모드에서 더 풍부한 기능 학습 모드로 전환할 때 발생할 수 있습니다. 그로킹은 커널 메커니즘에서 피처 학습 메커니즘으로의 전환을 통해 유발될 수 있습니다.

참고문헌

【1】"게으른 훈련 역학에서 풍부한 훈련 역학으로의 전환으로서의 그로킹"——ICLR 2024에 포함됨