물리학과 기하학으로 해석하는 딥 뉴럴넷의 특징 학습 메커니즘: 접이식 자를 활용한 새로운 이론 제시
3일 전
딥 뉴럴 네트워크(DNN)의 특징 학습 과정을 물리학과 기하학으로 설명하는 새로운 이론이 제시됐다. 바젤 대학과 중국 과학기술대학 연구팀은 DNN을 스프링-블록 체인이라는 기계 시스템에 비유해, 네트워크가 데이터를 계층적으로 분리하고 단순화하는 방식을 설명했다. 이 시스템은 스프링(선형 힘)과 마찰(비선형성)이 작용하는 구조로, DNN의 각 층이 입력 데이터를 점차 정제하고 클래스 간 구분을 강화하는 과정과 유사하다. 연구팀은 특히 ‘데이터 분리 법칙’—각 층에서 데이터 간 분리가 동일한 양만큼 향상된다는 원칙—이 스프링-블록 모델과 정확히 일치함을 발견했다. 학습 노이즈를 추가하면 블록이 일시적으로 마찰을 피하며 ‘공명’처럼 분리가 균형을 이루는 현상이 나타나며, 이는 실제 DNN의 일반화 성능 향상과도 연결된다. 이 이론은 복잡한 DNN의 수십억 파라미터를 다루는 대신, 몇 개의 물리적 변수로 이해할 수 있어 직관적이고 실용적이다. 연구팀은 이를 통해 모델의 과적합 여부를 진단하거나, 트랜스포머 기반 대규모 언어 모델의 훈련을 가속화하는 도구로 활용할 계획이다. 이는 기존의 규모 법칙에 대한 보완적 접근으로, 훈련 중에 일반화 성능을 예측하고 조절할 수 있는 핵심 기반을 마련할 전망이다.