본문 바로가기
수학/확률 & 통계

공분산(Covariance, Cor)과 상관계수(Correalation coefficient) 이란 - 2

by SuperMemi 2021. 1. 28.
반응형

앞선 글에서 기댓값과 분산에 대해서 다뤘다.

2021/01/28 - [확률과 통계/Probability] - [ 확률과 통계 ] 분산(variance, Var)과 공분산(Covariance, Cor) 이란 - 1

 

[ 확률과 통계 ] 분산(variance, Var)과 공분산(Covariance, Cor) 이란 - 1

1. 분산의 개념 어떤 확률 변수의 분산(variance, Var) 은 그 확률변수가 기댓값(expected value, E)으로부터 얼마나 떨어진 곳에 분포하는지를 가늠하는 숫자이다. 하나씩 알아보자. 기댓값 (expected value, E

supermemi.tistory.com

이어서 공분산에 대해서 알아보자.


2. 공분산 (Covariance, Cov)

 

공분산 (Covariance, Cov)는 2개의 확률변수의 상관 정도를 나타내는 값이다.

 

 

출처 : https://destrudo.tistory.com/15

 

어떤 두 확률 변수 X, Y를 생각해보자.

 

X 변수의 값이 상승하는 경향을 보였을때, Y의 값은 어떤 형태를 보일까?

 

1) X, Y 는 독립사건

 

X,Y가 서로 관계없는 독립사건이라고 생각하면 (C) No relationship 같은 형태의 분포를 보일 것이다.

 

이때의 Cov(X,Y) = 0 이 된다. 공분산의 0 인 확률 변수를 비상관 확률변수 라고 한다.

 

하지만 주의할 점은 역은 성립하지 않는다. 즉 X, Y가 독립이 아니더라도 공분산의 값은 0이 될 수 있다.

 

2) X가 증가할때, Y도 증가한다

 

이때 X,Y는 서로 상관이 있는 변수이다. 인과가 아님을 주의하자.

즉, 서로 영향을 주는지 여부는 공분산으로 알 수 없다. 어떤 패턴의 관계를 보이는지만 알 수 있다.

 

위의 그림에서는 (a) Positive Relationship 같은 형태의 분포를 보인다.

 

Cov(X,Y) > 0 이 된다.

 

3) X가 증가할때, Y는 감소한다

 

위의 그림에서는 (b) Negative Relationship 같은 형태의 분포를 보이며,

 

Cov(X,Y) < 0 이다.

 


공분산 공식

 

실수값을 지니는 2개의 확률변수 X 와 Y에 대해서 공분산의 기댓값을 다음과 같이 정의 할때,

 

 

위의 식을 풀어서 정리하면 아래와 같은 식이 된다.

 

이때, 만약 X, Y가 독립이면 공분산은 0이 되고, 아래와 같이 나타낼 수 있다.

 


공분산의 성질

 

만약, X, Y가 실수값인 확률변수이고 a, b가 상수라면, 공분산에 대해서 아래와 같은 법칙이 성립한다.

 

 

 

 

 

 

공분산은 확률변수들의 벡터 공간상에서의 내적을 의미한다.

 

벡터에서 적용되는 벡터합 X + YaX와 같은 스칼라곱의 성질도 지닌다.


공분산 행렬

 

항상 컴퓨터 계산을 통해 연산하려면 행렬로써 나타내는게 용이하기 때문에 중요하다.

 

열벡터값을 가지는 확률변수 X , Y 에 각각의 기댓값을 빼주어 아래의 식처럼 계산하면 공분산을 구할 수 있다.

 


3. 공분산의 문제점

 

공분산은 단순한 상관관계의 방향만을 알려준다.

상관관계의 정도는 알 수 없다.

 

왜일까?

 

확률변수의 단위 크기에 영향을 많이 받기 때문이다.

 

두 확률 변수 X,Y 의 공분산 Cov(X,Y)의 단위는 X와 Y의 곱이다.

그렇다 보니 각 확률 변수의 단위크기가 크면 무조건 공분산의 크기가 크게 나오는 문제가 있다.

 

그래서 극복방법으로 상관계수(Correlation Coefficient)를 사용한다.


4. 상관계수(Correlation Coefficient)

 

상관계수는 확률 변수의 절대적 크기에 영향을 받지 않도록 공분산을 단위화 시킨 것이다.

 

즉, 공분산에 각 확률변수의 분산을 나누어 줬다고 생각하면 된다.

 

다시 말하면, 공분산을 정규화 시키면 상관관계를 알 수 있다.

 

 

상관계수의 성질

  •  상관계수의 절댓값은 1을 넘지 않는다.

  •  확률변수 X,Y가 독립이라면 상관계수는 0이다.

  •  상관관계가

    •  0<ρ≤+1 이면 양의 상관

    •  -1≤ρ<0 이면 음의 상관

    •  ρ=0이면 무상관이라고 한다.

 

여기서 더 나아가면 피어슨 상관계수 또는 스피어만 상관계수를 구할 수 있다.

 

 


참고

bskyvision.com/398

ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D

destrudo.tistory.com/15

ko.wikipedia.org/wiki/%EA%B3%B5%EB%B6%84%EC%82%B0

 

 

 

반응형