17일 전

커널 플로우를 이용한 신경망 내부 계층의 심층 정규화 및 직접 훈련

Gene Ryan Yoo, Houman Owhadi
커널 플로우를 이용한 신경망 내부 계층의 심층 정규화 및 직접 훈련
초록

우리는 인공 신경망(ANNs)을 위한 새로운 정규화 방법을 제안한다. 이 방법은 커널 플로우(Kernel Flows, KFs)에 기반한다. KFs는 데이터셋의 무작위 배치에서 보간점 수를 절반으로 줄였을 때 발생하는 정확도 손실을 최소화하는 원칙에 따라 회귀 또는 크리깅(regression/kriging)에서 커널 선택을 수행하는 방법으로 도입되었다. ANN의 복합 구조를 함수적으로 표현하기 위해 $f_θ(x) = \big(f^{(n)}{θ_n}\circ f^{(n-1)}{θ_{n-1}} \circ \dots \circ f^{(1)}{θ_1}\big)(x)$로 표기하고, 내부 계층의 출력을 $h^{(i)}(x) = \big(f^{(i)}{θ_i}\circ f^{(i-1)}{θ{i-1}} \circ \dots \circ f^{(1)}_{θ_1}\big)(x)$로 정의하면, 이는 특징 맵과 커널 $k^{(i)}(x,x')=\exp(- γ_i \|h^{(i)}(x)-h^{(i)}(x')\|_2^2)$의 계층적 구조를 형성한다. 이러한 커널을 데이터 배치와 결합하면, 내부 계층의 매개변수 $θ_1,\ldots,θ_i$ (및 $γ_i$)에 따라 의존하는 KF 손실 $e_2^{(i)}$ (즉, 배치의 무작위 절반을 사용하여 나머지 절반을 예측할 때 발생하는 $L^2$ 회귀 오차)가 생성된다. 본 연구에서 제안하는 방법은 이러한 KF 손실의 일부를 전통적인 출력 손실과 합성하는 것으로 구성된다. 제안된 방법은 구조나 출력 분류기의 변경 없이 CNN과 WRN에 적용되었으며, 테스트 오차 감소, 일반화 갭 감소, 분포 이동에 대한 강건성 증가를 보였으며, 계산 복잡도의 유의미한 증가는 없었다. 이러한 결과는 기존의 학습 방식이 데이터셋에 의해 정의된 경험적 분포의 선형 함수(일반화된 모멘트)만을 활용하여 과도하게 파라미터화된 상황에서 신경 탄성 커널(Neural Tangent Kernel, NTK) 영역에 갇힐 수 있는 반면, 제안된 손실 함수는 경험적 분포의 비선형 함수로 정의되어, 데이터를 해당 커널로 회귀하는 것을 넘어서 CNN이 정의하는 기본 커널을 효과적으로 학습한다는 점에서 설명될 수 있다고 추측된다.

커널 플로우를 이용한 신경망 내부 계층의 심층 정규화 및 직접 훈련 | 최신 연구 논문 | HyperAI초신경