1. 정보량
(1) 확률과 반비례 관계
발생할 확률이 낮은 사건이 발생한다는 사실을 알때 정보의 양은 커진다. 그러니까 확률과 정보의 양은 반비례하다.
(2) 숫자 예시
1~100까지 숫자중 정답인 숫자를 맞춰야 하는 문제가 있다고 가정하자.
정답이 1~10까지 중에 있다는 정보는 확률이 10/100 => 정보의 양은 10
정답이 1~20까지 중에 있다는 정보는 확률이 20/100 -=> 정보의 양은 5
.
.
정답이 1~100까지 중에 있다는 정보는 확률이 100/100 => 정보의 양은 1
(3) 로그취하기
이때 동전 던지기로 정보의 양은 표현하면
동전 하나를 던졌을때 하나가 앞면이 나올 확률은 1/2 => 정보의 양은 2
동전 두개를 던졌을 때 두개가 앞면이 나올 확률은 1/2^2 => 정보의 양은 2^2
.
.
동전 n개를 던졌을 때 두개가 앞면이 나올 확률은 1/2^n => 정보의 양은 2^n
이때 정보의 양에 로그를 취해주면
동전 하나를 던졌을때 하나가 앞면이 나올 확률은 1/2 => 정보의 양은 2 => log2
동전 두개를 던졌을 때 두개가 앞면이 나올 확률은 1/2^2 => 정보의 양은 2^2 => 2log2
.
.
동전 n개를 던졌을 때 두개가 앞면이 나올 확률은 1/2^n => 정보의 양은 2^n => nlog2
(4) 결론식
2. 엔트로피
엔트로피는 불확실성이자 정보량의 평균 이다.
즉 정보의 평균이 커질수록 엔트로피도 커진다. 즉 불확실성이 커진다. 따라서 아래와 같은 식으로 나타낼 수 있다.
그리고 이를 그래프로 나타내면 아래와 같다.
확률이 0.5에 가까울 수록 불확실성이 커진다.
* 출처 : 패스트캠퍼스 수학적으로 접근하는 딥러닝 올인원 패키지 Online.