HyperAI초신경

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

7년 전
명예의 전당
Sparanoid
特色图像

Super Neuro에서

제목이 약간 위험주의적입니다. 우리는 며칠 전에 튜링의 소문에 대해서도 기사를 썼습니다. 그가 업계에서 "인공지능의 아버지"로 여겨진다는 데는 의심의 여지가 없습니다.

오늘 제가 글을 쓰는 장로님 역시 주목할 만한 인물입니다. 섀넌이라는 분인데, 학계에서 존경하는 마음으로 "정보 과학의 아버지"라는 칭호를 받고 있습니다. 우리 모두 알다시피, 정보 이론은 인공지능 산업에 큰 공헌을 했습니다. 그래서 우리는 섀넌을 "인공지능의 삼촌"이라고 부릅니다.

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

섀넌은 젊었을 때 잘생기고 자신감 넘치는 사람이었으며, 발명가 에디슨의 먼 친척이기도 했습니다.

1916년 4월 30일, 클로드 섀넌은 미국 미시간주 게일로드라는 작은 마을에서 태어났습니다. 당시 튜링은 멀리 영국에 있었고, 그의 나이는 네 살이었습니다. 섀넌은 1936년 미시간 대학에서 수학과 전기공학 학사 학위를 받았습니다. 1940년 MIT에서 수학 석사 및 박사 학위를 받았고, 1941년 벨 연구소에 입사했습니다.

튜링에 비하면 섀넌의 삶은 더 순탄했다. 그는 2001년 2월 26일에 84세의 나이로 사망했습니다.

삼촌의 AI에 대한 큰 지원

섀넌이 개척한 정보 이론은 정보 및 통신 과학의 초석일 뿐만 아니라 가장 중요한 것으로 남아 있습니다.이는 딥러닝의 중요한 이론적 기초입니다.

정보 이론은 미적분학, 확률론, 통계학 및 기타 학문을 결합하며 딥러닝에서 매우 중요한 역할을 합니다.

  • 일반적인 교차 엔트로피 손실 함수

  • 최대 정보 이득을 기반으로 의사결정 트리를 구성합니다.

  • Viterbi 알고리즘은 NLP와 음성 분야에서 널리 사용됩니다.

  • RNN은 일반적으로 기계 번역에 사용되고 인코더와 디코더는 다양한 유형의 모델에 일반적으로 사용됩니다.

정보 이론 발전의 간략한 역사

간단한 예부터 살펴보겠습니다. 다음 두 문장은 서로 다른 양의 정보를 담고 있습니다.

"브루노는 개예요."

"브루노는 큰 갈색 개예요."

두 문장이 전달하는 정보의 양이 다르다는 것은 명백합니다. 첫 번째 문장과 비교했을 때 두 번째 문장에는 더 많은 정보가 담겨 있습니다. 그것은 브루노가 개라는 사실뿐만 아니라, 그 개의 털 색깔과 몸 모양도 알려줍니다.

하지만 이 두 개의 간단한 문장은 20세기 초 과학자와 엔지니어들에게 가장 큰 골칫거리였습니다.

그들은 이 정보의 차이를 정량화하고 수학적으로 설명하고 싶었습니다.

불행히도 당시에는 이를 위한 분석적, 수학적 방법이 쉽게 제공되지 않았습니다.

그 이후로 과학자들은 이 질문에 대한 답을 찾기 위해 노력해 왔으며, 데이터의 의미론과 같은 측면에서 답을 찾고자 했습니다. 하지만 그런 연구는 문제를 더욱 복잡하게 만드는 것 외에는 아무런 목적도 없다는 것이 밝혀졌습니다.

수학자이자 엔지니어인 섀넌이 소개될 때까지는 "엔트로피"컨셉 이후. 마침내 정보의 양적 측정 문제가 해결되었고, 이는 또한 우리가 '디지털 정보 시대'로 진입했음을 의미합니다.

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

Shannon은 데이터의 의미론에 초점을 맞추지 않고 확률 분포에 초점을 맞췄습니다. "불확실성"정보를 정량화하고 소개하려면 "조금"정보 측정의 개념.

그는 정보 내용과 관련해 데이터의 의미론은 중요하지 않다고 믿는다.

이 혁신적인 아이디어는 정보 이론의 기초를 마련했을 뿐만 아니라, 인공지능과 같은 분야의 발전을 위한 새로운 길을 열어주었습니다. 따라서 클로드 섀넌은 정보화 시대의 아버지로도 인정받고 있다.

딥러닝의 공통 요소: 엔트로피

정보 이론에는 다양한 응용 시나리오가 있습니다. 여기서는 주로 딥 러닝과 데이터 과학 분야에서의 네 가지 일반적인 응용 프로그램을 살펴보겠습니다.

엔트로피

정보 엔트로피 또는 섀넌 엔트로피라고도 하며, 불확실한 결과를 측정하는 데 사용됩니다. 다음 두 가지 실험을 통해 이를 이해할 수 있습니다.

  • 공정한 동전을 던져서 결과의 확률이 0.5가 되도록 하세요.

  • 편향된 동전을 던져 결과의 확률이 0.99가 되도록 합니다.

분명히 실험 1보다 실험 2의 결과를 예측하는 것이 더 쉽습니다. 따라서 결과를 판단해 보면 실험 1은 실험 2보다 불확실하며, 엔트로피는 이 불확실성을 측정하는 데 특별히 사용됩니다.

실험 결과의 불확실성이 클수록 엔트로피는 높아지고, 그 반대의 경우도 마찬가지입니다.

결과가 완전히 확실한 결정론적 실험에서는 엔트로피가 0입니다. 공정한 주사위와 같은 완전히 무작위적인 실험에서는 각 결과에 대해 많은 불확실성이 있으므로 엔트로피가 매우 커질 것입니다.

엔트로피를 결정하는 또 다른 방법은 무작위 실험의 결과를 관찰하여 얻은 평균 정보의 함수로 엔트로피를 정의하는 것입니다. 결과가 적을수록 관찰되는 정보가 적어지고 엔트로피도 낮아집니다.

예를 들어, 결정론적 실험에서 우리는 항상 결과를 알고 있으므로 결과를 관찰해도 새로운 정보를 얻을 수 없고, 따라서 엔트로피는 0입니다.

수학 공식

이산 확률 변수 X에 대해 가능한 결과는 x_1, ..., x_n으로 기록되며 엔트로피 계산 공식은 다음과 같습니다(엔트로피는 H로 표시, 단위 비트):

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

여기서 p(x_i)는 변수 X에 의해 생성되는 결과의 확률입니다.

애플리케이션

  • 자동 의사결정 트리를 구축합니다. 구축 과정에서 모든 기능 선택은 엔트로피 기준을 사용하여 수행될 수 있습니다.

  • 엔트로피가 클수록 정보의 양도 많아지고 예측 가치도 커집니다. 이를 바탕으로 가장 가치 있는 모델, 즉 가장 높은 엔트로피를 가진 모델을 두 경쟁 모델 중에서 찾을 수 있다.

딥러닝의 공통적이고 중요한 요소: 교차 엔트로피

교차 엔트로피

정의:교차 엔트로피는 주로 두 확률 분포 간의 정보 차이를 측정하는 데 사용됩니다. 이를 통해 두 확률이 얼마나 비슷한지 알 수 있습니다.

수학 공식

동일한 샘플에서 정의된 두 확률 p와 q에 대한 교차 엔트로피 계산 공식은 다음과 같습니다(엔트로피는 H로 표시, 단위 비트):

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

애플리케이션

  • 교차 엔트로피 손실 함수는 로지스틱 회귀와 같은 분류 모델에서 널리 사용됩니다. 예측이 실제 출력과 다를 경우 교차 엔트로피 손실 함수가 증가합니다.

  • CNN과 같은 딥 러닝 아키텍처에서는 최종 출력 "소프트맥스" 계층이 종종 교차 엔트로피 손실 함수를 사용합니다.

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

그림 1: CNN 기반 분류기는 일반적으로 소프트맥스 계층을 최종 계층으로 사용하고 학습을 위해 교차 엔트로피 손실 함수를 사용합니다.

딥러닝의 공통적이고 중요한 요소: 상호 정보

상호 정보

정의 상호 정보는 두 확률 분포 또는 확률 변수 간의 상호 의존성 정도를 측정하는 데 사용됩니다. 간단히 말해서, 하나의 변인이 얼마나 많은 정보를 담고 있는가를 말합니다.

상호 정보에 의해 포착된 확률 변수 간의 상관관계는 선형 필드에 국한된 일반적인 상관관계와 다릅니다. 또한 비선형 관련 정보도 포착할 수 있으며 적용 범위가 더 넓습니다.

수학 공식

두 개의 이산 확률 변수 X와 Y의 상호 정보 공식은 다음과 같습니다.

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

여기서 p(x,y)는 x와 y의 결합 확률 분포이고, p(x)와 p(y)는 각각 x와 y의 주변 확률 분포입니다.

애플리케이션

  • 특징 선택: 상호 정보는 선형 상관 관계를 포착할 수 있을 뿐만 아니라 비선형 상관 관계에도 주의를 기울여 특징 선택을 보다 포괄적이고 정확하게 만들어줍니다.
  • 베이지안 네트워크에서는 상호 정보를 사용하여 확률 변수 간의 관계 구조를 학습하고 이러한 관계의 강도를 정의합니다..

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

그림 1: 베이지안 네트워크에서 변수 간의 관계 구조는 상호 정보를 사용하여 결정될 수 있습니다.

딥러닝의 공통적이고 중요한 요소: KL 다이버전스

KL 발산(Kullback–Leibler 발산)

KL 발산은 상대 엔트로피라고도 하며, 두 확률 분포 사이의 편차 정도를 측정하는 데 사용됩니다.

필요한 데이터가 실제 분포 P에 속하지만, 이 P를 모른다고 가정해 보겠습니다. 이 경우, 실제 분포 P에 맞는 새로운 확률 분포 Q를 만들 수 있습니다.

Q의 데이터는 P에 대한 근사치일 뿐이므로 Q는 P만큼 정확하지 않습니다. 따라서 P에 비해 Q에서 일부 정보가 손실되고, 이 손실된 정보의 양은 KL 발산으로 측정됩니다.

KL 발산은 우리가 Q(P의 근사치)를 사용하기로 결정할 때 얼마나 많은 정보를 잃게 되는지 알려줍니다. KL 발산이 0에 가까울수록 Q의 데이터는 P에 가까워집니다.

수학 공식

확률 분포 Q와 다른 확률 분포 P의 KL 발산에 대한 수학 공식은 다음과 같습니다.

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

애플리케이션

KL 다이버전스는 현재 비지도 학습 시스템의 VAE(변형 자동 인코더)에 사용됩니다.

1948년, 클로드 섀넌은 그의 획기적인 논문 "통신의 수학적 이론"에서 공식적으로 "정보 이론"을 제안하여 새로운 시대를 열었습니다. 오늘날 정보 이론은 머신 러닝, 딥 러닝, 데이터 과학 등 여러 분야에서 널리 활용되고 있습니다.

첫 번째 섀넌상

우리 모두 알다시피, 컴퓨터 산업에서 가장 높은 영예상은 튜링상입니다. 튜링상은 튜링의 뛰어난 공헌을 기념하기 위해 1966년 컴퓨터 공학 협회에서 제정했습니다. 마찬가지로 섀넌상은 정보 분야에서도 중요합니다.

차이점은 튜링이 1954년에 사망했고 세상이 그를 위해 이 상을 제정했다는 사실을 알 기회가 없었다는 것입니다.

섀넌은 훨씬 더 운이 좋았습니다. 섀넌상은 다음 사람에게 수여되었습니다. IEEE 협회는 정보 이론 분야에서 뛰어난 공헌을 한 과학자와 엔지니어를 기리기 위해 1972년에 설립되었습니다. 첫 번째 세션에서는 섀넌 본인이 섀넌상을 수상했습니다.

튜링이 AI의 아버지라면, 섀넌은 AI의 삼촌이 되어야 할까요?

"섀넌은 섀넌 상을 수상했고, 역사는 그것을 섀넌 루틴이라고 부른다."