Command Palette
Search for a command to run...
위키
머신 러닝 용어집: 주요 AI 및 ML 개념의 정의와 설명 탐색
Search for a command to run...
머신 러닝 용어집: 주요 AI 및 ML 개념의 정의와 설명 탐색
편향-분산 딜레마는 편향과 분산을 동시에 줄이는 것이 불가능하며, 둘 사이의 균형을 이루는 것만이 가능하다는 것을 의미합니다. 모델에서 편차를 줄이려면 과소적합을 방지하기 위해 모델의 복잡성을 높여야 합니다. 하지만 동시에 모델을 너무 복잡하게 만들어 분산을 증가시키고 과적합을 일으킬 수는 없습니다. 그러므로 우리는 모델의 복잡성에서 균형점을 찾아야 합니다.
"편향-분산 분해"는 학습 알고리즘의 일반화 성능을 편향과 분산의 관점에서 설명하는 도구입니다. 구체적인 정의는 다음과 같습니다. K개의 데이터 세트가 있고, 각각이 분포 p(t,x)에서 독립적으로 추출되었다고 가정합니다. (t는 예측할 변수를 나타내고 x는 특성 변수를 나타냅니다.) 무관심한 […]
정의: 예상 출력과 실제 레이블의 차이를 편향이라고 합니다. 다음 그림은 편향과 분산 사이의 관계를 잘 보여줍니다.
클래스 간 산점 행렬은 각 샘플 포인트의 평균 주위 분산을 나타내는 데 사용됩니다. 수학적 정의
정의 베이지안 네트워크는 불확실한 지식 표현 및 추론 분야에서 가장 효과적인 이론적 모델 중 하나입니다. 베이지안 네트워크는 변수를 나타내는 노드와 이 노드를 연결하는 방향성 모서리로 구성됩니다. 노드는 확률 변수를 나타냅니다. 노드 사이의 방향성 모서리는 노드 간의 관계를 나타냅니다. 관계의 강도는 조건부 확률을 사용하여 표현됩니다. 부모 노드가 없습니다 […]
기본 개념 베이지안 의사결정 이론은 통계적 모형 의사결정의 기본적인 방법입니다. 기본적인 아이디어는 다음과 같습니다. 알려진 클래스 조건부 확률 밀도 매개변수 표현식과 사전 확률을 베이지안 공식을 사용하여 사후 확률로 변환합니다. 결정 분류는 사후 확률의 크기에 따라 결정됩니다. 관련 공식 D1, D2, ..., Dn을 샘플이라고 하자 […]
전반적인 위험을 최소화하기 위해 샘플에 대한 위험 R(c|x)를 최소화할 수 있는 클래스 레이블이 선택됩니다. 즉, h∗는 베이지안 최적 분류기입니다.
모델 선택에서는 일반적으로 후보 모델 집합에서 "최상의" 모델을 선택한 다음, 선택된 "최상의" 모델을 예측에 사용합니다. 단일 최적 모델과 달리 베이지안 모델 평균화는 각 모델에 가중치를 할당하고 가중 평균화를 수행하여 최종 예측 값을 결정합니다. 그 중 모델에 부여되는 가중치는 […]
각 샘플 x에 대해 h가 조건부 위험 R(h(x)|x)을 최소화할 수 있다면 전체 위험도 최소화됩니다. 이는 베이즈 결정 규칙으로 이어집니다. 전반적인 위험을 최소화하려면 조건부 위험 R(c|x […])을 만드는 위험만 선택하면 됩니다.
BN은 대규모 합성곱 신경망의 학습 속도를 높이고 수렴 후 분류 정확도를 개선할 수 있는 일련의 정규화 방법입니다. BN이 신경망의 특정 계층에서 사용될 경우, 각 미니 배치의 내부 데이터를 표준화하고, 출력을 N(0,1)의 정규 분포로 정규화하고, […]
앙상블 학습에서는 그룹이 생성한 "개별 학습자"는 동질적입니다. 이러한 학습기를 기본 학습기라고 하며, 해당 학습 알고리즘을 기본 학습 알고리즘이라고 합니다.
장단기 메모리(LSTM)는 1997년에 처음 발표된 시간 재귀 신경망(RNN)입니다. 고유한 설계 구조로 인해 LSTM은 매우 긴 간격과 지연을 갖는 시계열의 중요한 이벤트를 처리하고 예측하는 데 적합합니다.
정보 엔트로피는 정보의 양을 측정하는 데 적합한 양입니다. 1948년 섀넌이 제안했습니다. 열역학의 엔트로피 개념을 빌려와 정보의 중복을 제외한 평균 정보량을 정보 엔트로피라고 부르고, 이에 대한 수학적 표현을 제시했습니다. 정보 엔트로피의 세 가지 속성은 단조성입니다. 즉, 사건의 확률이 높을수록 더 많은 정보를 담고 있다는 것입니다.
지식 표현이란 지식의 표현과 설명을 말합니다. 이는 에이전트가 관련 지식을 합리적으로 어떻게 활용할 수 있는지에 관한 것입니다. 이것은 계산적 과정으로서의 사고에 대한 연구입니다. 엄밀히 말하면, 지식 표현과 지식 추론은 같은 연구 분야에서 서로 밀접하게 연관된 두 가지 개념이지만, 사실 지식 표현은 추론을 포함하는 광범위한 개념을 지칭하는 데에도 사용됩니다.
지수 손실 함수는 AdaBoost 알고리즘에서 일반적으로 사용되는 손실 함수입니다. 그 함수 표현은 다음 그림에서 보듯이 지수 형태입니다. 일반적인 손실 오류 지수 손실 지수 손실: 주로 Adaboost 앙상블 학습 알고리즘에서 사용됨; 힌지 손실 H […]
머신러닝 분야에서 진실이란 지도학습에서 분류 결과에 대한 학습 세트의 정확한 설정값을 의미하며, 일반적으로 오차 추정 및 효과 평가에 사용됩니다. 지도 학습에서 레이블이 지정된 데이터는 일반적으로 (x, t)의 형태로 나타납니다. 여기서 x는 입력 데이터를 나타내고 t는 레이블을 나타냅니다. 올바른 라벨은 Grou […]입니다.
오류-발산 분해는 통합 일반화 오류를 분해하는 과정을 말하며, 다음과 같이 표현할 수 있습니다. $latex {E= \overline {E}- \overline {A}}$ 여기서 왼쪽 E는 통합 일반화 오류를 나타내고 오른쪽 $latex {\over […]
MCMC는 마르코프 체인을 기반으로 한 무작위 분포에서 샘플링을 위한 알고리즘으로, 확률 공간에서 무작위로 샘플링하여 관심 매개변수의 사후 분포를 근사합니다. MCMC의 기본 이론은 마르코프 과정입니다. 관련 알고리즘에서, 지정된 분포를 샘플링하기 위해 마르코프 과정에 따라 모든 상태에서 시뮬레이션할 수 있습니다.
진화 알고리즘은 생물학적 세계의 자연선택과 자연적 유전 메커니즘을 활용한 일반적인 문제 해결 방법입니다. 기본 방법: 간단한 코딩 기술을 사용하여 다양한 복잡한 구조를 표현하고, 간단한 유전 연산과 적자생존의 자연선택을 사용하여 학습을 안내하고 탐색 방향을 결정합니다. 인구를 사용하여 검색을 구성하면 […]
유전 알고리즘(GA)은 계산 수학에서 최적화 문제를 해결하는 데 사용되는 검색 알고리즘입니다. 이는 유전, 돌연변이, 자연선택, 교잡을 포함한 진화생물학의 일부 현상에서 차용한 일종의 진화 알고리즘입니다. 유전자 알고리즘은 일반적으로 컴퓨터 시뮬레이션의 형태로 구현됩니다. 최적화 문제에는 […]가 있습니다.
이득률은 일반적으로 정보 이득률을 의미하며, 노드 정보와 노드 분할 정보 측정값의 비율을 나타냅니다. 이득률은 일반적으로 속성 선택 방법 중 하나로 사용됩니다. 다른 두 가지 일반적인 방법은 정보 이득과 지니 지수입니다. 이득 비율 공식은 다음과 같습니다. $latex {GainRatio{ \left( {R} […]
힐베르트 공간은 완전 내적 공간으로, 내적을 포함하는 완전 벡터 공간으로 이해할 수 있습니다. 알베르트 공간은 유한 차원의 유클리드 공간을 기반으로 하며, 후자의 일반화로 볼 수 있습니다. 그것은 실수와 유한한 차원에 국한되지는 않지만 완전하지는 않습니다. 유클리드 공간과 마찬가지로 힐베르트 공간은 내적 공간이며 거리와 각도를 갖습니다.
은닉 마르코프 모델(HMM)은 시계열의 확률적 모델로, 은닉 마르코프 체인을 통해 각 상태에서 관찰할 수 없는 상태의 관찰 가능한 무작위 시퀀스를 생성하는 과정을 설명합니다. 은닉 마르코프 모델은 숨겨진 알려지지 않은 매개변수를 포함하는 마르코프 모델을 설명하는 데 사용되는 통계 모델입니다.
은닉층은 다단계 피드포워드 신경망에서 입력층과 출력층을 제외한 나머지 층을 말합니다. 은닉층은 외부 신호를 직접 받지 않으며, 외부 세계에 신호를 직접 보내지도 않습니다. 데이터가 비선형적으로 분리된 경우에만 필요합니다. 은닉층의 뉴런은 최대 풀링층, 합성곱층 등 다양한 형태를 취할 수 있으며, 각각 다른 수학적 함수를 수행합니다. […]
편향-분산 딜레마는 편향과 분산을 동시에 줄이는 것이 불가능하며, 둘 사이의 균형을 이루는 것만이 가능하다는 것을 의미합니다. 모델에서 편차를 줄이려면 과소적합을 방지하기 위해 모델의 복잡성을 높여야 합니다. 하지만 동시에 모델을 너무 복잡하게 만들어 분산을 증가시키고 과적합을 일으킬 수는 없습니다. 그러므로 우리는 모델의 복잡성에서 균형점을 찾아야 합니다.
"편향-분산 분해"는 학습 알고리즘의 일반화 성능을 편향과 분산의 관점에서 설명하는 도구입니다. 구체적인 정의는 다음과 같습니다. K개의 데이터 세트가 있고, 각각이 분포 p(t,x)에서 독립적으로 추출되었다고 가정합니다. (t는 예측할 변수를 나타내고 x는 특성 변수를 나타냅니다.) 무관심한 […]
정의: 예상 출력과 실제 레이블의 차이를 편향이라고 합니다. 다음 그림은 편향과 분산 사이의 관계를 잘 보여줍니다.
클래스 간 산점 행렬은 각 샘플 포인트의 평균 주위 분산을 나타내는 데 사용됩니다. 수학적 정의
정의 베이지안 네트워크는 불확실한 지식 표현 및 추론 분야에서 가장 효과적인 이론적 모델 중 하나입니다. 베이지안 네트워크는 변수를 나타내는 노드와 이 노드를 연결하는 방향성 모서리로 구성됩니다. 노드는 확률 변수를 나타냅니다. 노드 사이의 방향성 모서리는 노드 간의 관계를 나타냅니다. 관계의 강도는 조건부 확률을 사용하여 표현됩니다. 부모 노드가 없습니다 […]
기본 개념 베이지안 의사결정 이론은 통계적 모형 의사결정의 기본적인 방법입니다. 기본적인 아이디어는 다음과 같습니다. 알려진 클래스 조건부 확률 밀도 매개변수 표현식과 사전 확률을 베이지안 공식을 사용하여 사후 확률로 변환합니다. 결정 분류는 사후 확률의 크기에 따라 결정됩니다. 관련 공식 D1, D2, ..., Dn을 샘플이라고 하자 […]
전반적인 위험을 최소화하기 위해 샘플에 대한 위험 R(c|x)를 최소화할 수 있는 클래스 레이블이 선택됩니다. 즉, h∗는 베이지안 최적 분류기입니다.
모델 선택에서는 일반적으로 후보 모델 집합에서 "최상의" 모델을 선택한 다음, 선택된 "최상의" 모델을 예측에 사용합니다. 단일 최적 모델과 달리 베이지안 모델 평균화는 각 모델에 가중치를 할당하고 가중 평균화를 수행하여 최종 예측 값을 결정합니다. 그 중 모델에 부여되는 가중치는 […]
각 샘플 x에 대해 h가 조건부 위험 R(h(x)|x)을 최소화할 수 있다면 전체 위험도 최소화됩니다. 이는 베이즈 결정 규칙으로 이어집니다. 전반적인 위험을 최소화하려면 조건부 위험 R(c|x […])을 만드는 위험만 선택하면 됩니다.
BN은 대규모 합성곱 신경망의 학습 속도를 높이고 수렴 후 분류 정확도를 개선할 수 있는 일련의 정규화 방법입니다. BN이 신경망의 특정 계층에서 사용될 경우, 각 미니 배치의 내부 데이터를 표준화하고, 출력을 N(0,1)의 정규 분포로 정규화하고, […]
앙상블 학습에서는 그룹이 생성한 "개별 학습자"는 동질적입니다. 이러한 학습기를 기본 학습기라고 하며, 해당 학습 알고리즘을 기본 학습 알고리즘이라고 합니다.
장단기 메모리(LSTM)는 1997년에 처음 발표된 시간 재귀 신경망(RNN)입니다. 고유한 설계 구조로 인해 LSTM은 매우 긴 간격과 지연을 갖는 시계열의 중요한 이벤트를 처리하고 예측하는 데 적합합니다.
정보 엔트로피는 정보의 양을 측정하는 데 적합한 양입니다. 1948년 섀넌이 제안했습니다. 열역학의 엔트로피 개념을 빌려와 정보의 중복을 제외한 평균 정보량을 정보 엔트로피라고 부르고, 이에 대한 수학적 표현을 제시했습니다. 정보 엔트로피의 세 가지 속성은 단조성입니다. 즉, 사건의 확률이 높을수록 더 많은 정보를 담고 있다는 것입니다.
지식 표현이란 지식의 표현과 설명을 말합니다. 이는 에이전트가 관련 지식을 합리적으로 어떻게 활용할 수 있는지에 관한 것입니다. 이것은 계산적 과정으로서의 사고에 대한 연구입니다. 엄밀히 말하면, 지식 표현과 지식 추론은 같은 연구 분야에서 서로 밀접하게 연관된 두 가지 개념이지만, 사실 지식 표현은 추론을 포함하는 광범위한 개념을 지칭하는 데에도 사용됩니다.
지수 손실 함수는 AdaBoost 알고리즘에서 일반적으로 사용되는 손실 함수입니다. 그 함수 표현은 다음 그림에서 보듯이 지수 형태입니다. 일반적인 손실 오류 지수 손실 지수 손실: 주로 Adaboost 앙상블 학습 알고리즘에서 사용됨; 힌지 손실 H […]
머신러닝 분야에서 진실이란 지도학습에서 분류 결과에 대한 학습 세트의 정확한 설정값을 의미하며, 일반적으로 오차 추정 및 효과 평가에 사용됩니다. 지도 학습에서 레이블이 지정된 데이터는 일반적으로 (x, t)의 형태로 나타납니다. 여기서 x는 입력 데이터를 나타내고 t는 레이블을 나타냅니다. 올바른 라벨은 Grou […]입니다.
오류-발산 분해는 통합 일반화 오류를 분해하는 과정을 말하며, 다음과 같이 표현할 수 있습니다. $latex {E= \overline {E}- \overline {A}}$ 여기서 왼쪽 E는 통합 일반화 오류를 나타내고 오른쪽 $latex {\over […]
MCMC는 마르코프 체인을 기반으로 한 무작위 분포에서 샘플링을 위한 알고리즘으로, 확률 공간에서 무작위로 샘플링하여 관심 매개변수의 사후 분포를 근사합니다. MCMC의 기본 이론은 마르코프 과정입니다. 관련 알고리즘에서, 지정된 분포를 샘플링하기 위해 마르코프 과정에 따라 모든 상태에서 시뮬레이션할 수 있습니다.
진화 알고리즘은 생물학적 세계의 자연선택과 자연적 유전 메커니즘을 활용한 일반적인 문제 해결 방법입니다. 기본 방법: 간단한 코딩 기술을 사용하여 다양한 복잡한 구조를 표현하고, 간단한 유전 연산과 적자생존의 자연선택을 사용하여 학습을 안내하고 탐색 방향을 결정합니다. 인구를 사용하여 검색을 구성하면 […]
유전 알고리즘(GA)은 계산 수학에서 최적화 문제를 해결하는 데 사용되는 검색 알고리즘입니다. 이는 유전, 돌연변이, 자연선택, 교잡을 포함한 진화생물학의 일부 현상에서 차용한 일종의 진화 알고리즘입니다. 유전자 알고리즘은 일반적으로 컴퓨터 시뮬레이션의 형태로 구현됩니다. 최적화 문제에는 […]가 있습니다.
이득률은 일반적으로 정보 이득률을 의미하며, 노드 정보와 노드 분할 정보 측정값의 비율을 나타냅니다. 이득률은 일반적으로 속성 선택 방법 중 하나로 사용됩니다. 다른 두 가지 일반적인 방법은 정보 이득과 지니 지수입니다. 이득 비율 공식은 다음과 같습니다. $latex {GainRatio{ \left( {R} […]
힐베르트 공간은 완전 내적 공간으로, 내적을 포함하는 완전 벡터 공간으로 이해할 수 있습니다. 알베르트 공간은 유한 차원의 유클리드 공간을 기반으로 하며, 후자의 일반화로 볼 수 있습니다. 그것은 실수와 유한한 차원에 국한되지는 않지만 완전하지는 않습니다. 유클리드 공간과 마찬가지로 힐베르트 공간은 내적 공간이며 거리와 각도를 갖습니다.
은닉 마르코프 모델(HMM)은 시계열의 확률적 모델로, 은닉 마르코프 체인을 통해 각 상태에서 관찰할 수 없는 상태의 관찰 가능한 무작위 시퀀스를 생성하는 과정을 설명합니다. 은닉 마르코프 모델은 숨겨진 알려지지 않은 매개변수를 포함하는 마르코프 모델을 설명하는 데 사용되는 통계 모델입니다.
은닉층은 다단계 피드포워드 신경망에서 입력층과 출력층을 제외한 나머지 층을 말합니다. 은닉층은 외부 신호를 직접 받지 않으며, 외부 세계에 신호를 직접 보내지도 않습니다. 데이터가 비선형적으로 분리된 경우에만 필요합니다. 은닉층의 뉴런은 최대 풀링층, 합성곱층 등 다양한 형태를 취할 수 있으며, 각각 다른 수학적 함수를 수행합니다. […]