본문 바로가기
수학/확률 & 통계

정규분포 (normal distribution) 란 무엇일까? - 가우시안 분포 (Gaussian normal distribution)

by SuperMemi 2021. 1. 28.
반응형

정규분포와 관련된 python 구현 코드와 예시는 아래의 글에서 확인할 수 있다.

 

 


1. 정규 분포(normal distribution)의 개념

 

  •  가우시안 정규 분포 (Gaussian normal distribution) 라고도 한다.

  •  자연 현상에서 나타나는 숫자를 확률 모형으로 나타낼 때 사용한다. 즉, 수집된 자료의 분포를 근사하는 데에 자주 사용된다.

  •  확률 밀도 함수로 나타냈을 때, 엎어진 종모양 (bell shape)을 가진다.

 

정규분포의 확률밀도함수를 나타내는 식은 다음과 같다.

 

 

 

 

출처 위키피디아

위의 그림을 통해 생각해 보자.

 

먼저 붉은 선을 보면, 평균이 0이고, 분산이 1인 정규분포(normal distribution)이다.

 

이렇게 평균이 0이고, 분산이 1인 정규분포(normal distribution)표준 정규 분포(standard normal distribution)라고 한다.

 

다른 색의 선들을 보면, 각각 분산이 다르거나 평균값이 붉은 선과 다르고 그에따른 분포를 볼 수 있다.


2. 정규분포(normal distribution)의 성질

 

  •  기댓값, 최빈값, 중앙값이 모두 같다.

 

 

  •  정규분포는 평균과 표준편차가 주어져 있을 때 엔트로피를 최대화 하는 분포이다.

  •  정규분포곡선은 좌우 대칭이며 하나의 꼭지를 가진다.

  •  정규분포는 중앙치에 사례 수가 모여있고, 양극단으로 갈수록 X축에 무한히 접근하지만 X 축에 닿지는 않는다.


3. 표준 정규 분포 - 정규화(normalize)

 

정규분포(normal distribution)

 

위의 식을 적용하여 XZ정규화(normalize) 함으로써, 평균이 0 표준편차가 1인 표준 정규 분포를 얻을 수 있다.

 

이는 Z-분포 라고 부를 수 있으며, Z검정에 사용할 수 있다.

 

간단히 말하면, 다양한 기준으로 형성된 정규분포를 평균이 0 표준편차가 1인 하나의 기준으로 통합시켜 비교를 용이하게 하는 것을 말한다.


다음 글에선 다변량 정규분포 (multivariate normal distribution) 에 대해서 다뤄보겠다.

 

 

 

 

 

 

 

 

 

 


참고

ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC

datascienceschool.net/02%20mathematics/08.04%20%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC%EC%99%80%20%EC%A4%91%EC%8B%AC%EA%B7%B9%ED%95%9C%EC%A0%95%EB%A6%AC.html

반응형