HyperAI초신경

지식 증류

지식 증류는 대규모 사전 훈련된 모델("교사 모델")의 학습 내용을 더 작은 "학생 모델"로 전송하는 것을 목표로 하는 머신 러닝 기술입니다. 이는 딥러닝에서 모델 압축 및 지식 전달의 한 형태로 사용되며, 특히 대규모 딥 신경망에 적합합니다.

지식 정제의 목표는 더 크고 복잡한 모델을 시뮬레이션하기 위해 더 컴팩트한 모델을 훈련하는 것입니다. 기존 딥 러닝의 목표는 인공 신경망을 훈련시켜 학습 데이터 세트에 제공된 출력 예제에 더 가까운 예측을 도출하는 것이지만, 지식 정제의 주요 목표는 학생 네트워크를 훈련시켜 교사 네트워크의 예측과 일치시키는 것입니다.

지식 증류(KD)는 일반적으로 많은 계층과 학습 가능한 매개변수를 갖춘 대규모 딥 신경망에 가장 많이 사용됩니다. 이 프로세스는 수십억 개의 매개변수를 갖는 새로운 대규모 생성 AI 모델과 특히 관련이 있습니다.

이 개념은 2006년 논문에서 처음 등장했습니다. "모델 압축" 논문. 카루아나 등 당시 최첨단 분류 모델(수백 개의 기본 분류기로 구성된 대규모 앙상블 모델)을 사용하여 대규모 데이터 세트에 레이블을 지정한 다음 기존의 지도 학습을 통해 새로 레이블이 지정된 데이터 세트에 대해 단일 신경망을 학습했습니다.

지식 증류 기술은 자연어 처리(NLP), 음성 인식, 이미지 인식, 객체 감지를 포함한 다양한 분야에 성공적으로 적용되었습니다. 최근 몇 년 동안 대규모 언어 모델(LLM)에 대한 지식 증류 연구가 특히 중요해졌습니다. LLM의 경우, 지식 증류는 주요 독점 모델의 고급 기능을 규모가 더 작고 접근성이 좋은 오픈 소스 모델로 이전하는 효과적인 수단이 되었습니다.

참고문헌

【1】https://www.ibm.com/topics/knowledge-distillation