Command Palette

Search for a command to run...

폭발하는 기울기 문제

날짜

2년 전

폭발하는 기울기 문제이런 현상은 일반적으로 심층 네트워크에서 가중치 초기화 값이 너무 클 때 발생하며, 일반적으로 네트워크 계층 수가 증가할수록 더욱 두드러집니다.

활성화 함수의 미분을 취하면, 결과가 1보다 크면 레이어의 개수가 늘어날수록 최종 그래디언트 업데이트가 기하급수적으로 증가하게 되는데, 즉 그래디언트 폭발이 발생합니다. 결과가 1보다 작으면 레이어 수가 증가함에 따라 최종 그래디언트 업데이트가 기하급수적으로 감소합니다. 즉, 그래디언트가 사라집니다.

그래디언트 폭발과 그래디언트 소멸의 주요 원인은 네트워크가 너무 깊고 네트워크 가중치 업데이트가 불안정하기 때문입니다. 기본적으로 그래디언트 역전파에는 곱셈 효과가 있기 때문입니다. 그래디언트 소실 문제의 경우, 시그모이드 활성화 함수를 ReLU 활성화 함수로 대체하는 것을 고려할 수 있습니다. 또한 LSTM 구조 설계는 RNN의 그래디언트 소실 문제도 개선할 수 있습니다.

폭발하는 그래디언트에 대한 솔루션

  • 사전 훈련 및 미세 조정
  • 그래디언트 클리핑, 가중치 정규화
  • 다양한 활성화 함수 사용
  • Batchnorm 사용
  • 잔여구조를 활용하다
  • LSTM 네트워크 사용

참고문헌

【1】신경망 학습에서의 소멸 및 폭발하는 기울기

【2】딥 신경망의 기울기 불안정성 문제 - 기울기 소멸 및 기울기 폭발

【3】머신러닝에서 그래디언트 소멸 및 폭발 현상의 원인과 해결 방안에 대한 자세한 설명

AI로 AI 구축

아이디어에서 출시까지 — 무료 AI 공동 코딩, 즉시 사용 가능한 환경, 최적 가격 GPU로 AI 개발을 가속화하세요.

AI 공동 코딩
즉시 사용 가능한 GPU
최적 가격
시작하기

Hyper Newsletters

최신 정보 구독하기
한국 시간 매주 월요일 오전 9시 에 이번 주의 최신 업데이트를 메일로 발송합니다
이메일 서비스 제공: MailChimp
폭발하는 기울기 문제 | 백과사전 | HyperAI초신경