공분산(covariance)과 상관계수(correlation coefficient)
Intro
세상에 대부분의 것들은 서로 독립적이지 않다.
서로 아무 관련도 없어 보이는 것들 조차도 알고보면 관련이 있을 때도 있다.
서로 얼마만큼의 연관이 있는지 알 수 있는 방법이 있을까?
단순히 A가 올라갈 때 B도 올라가니 서로 연관이 있어! 같은 무식한 소리는 하면 안되니 이에 대해 아라보자
공분산
집 앞 편의점 매출데이터를 살펴보자, X = 맥주 판매량, Y = 마른안주 판매량이라 가정해보자, 편의점 사장님께 둘은 연관이 있으니 맥주가 많이 팔리면 마른안주의 발주량을 늘리라거나 마른안주가 많이 팔리면 맥주를 늘리라고 조언을 해드렸다. 과연 어떻게 됐을까?
썩 꺼지고 다음부터 오지말라는 소리를 들었다. 사장님이 통계학과를 나오셨던 것이다..
다른 사람을 설득할 때는 논리, 근거가 필요하다.
단순히 관계가 있을 것이다에 그치면 안되고 이만큼의 수치적인 관계가 있다 정도의 정량적 지표가 필요하다.
이 때 앞에 나온 맥주와 마른안주의 관계에 대해 나타내 주는 것이 공분산이다.
- 공분산이란 확률변수의 선형관계를 나타내는 값이다
- 즉, 양의 값은 두 확률변수가 양의 선형관계를 음의 값은 음의 선형관계를 의미한다
- A가 증가할 때 B가 증가하면 양! A가 증가할 때 B가 감소하면 음의 관계!
정의는 아래와 같다
이 때 X와 Y가 독립이라면 공분산의 값은 0이 되며 역은 성립하지 않는다.
즉, 공분산이 0이면 두 변수간 상관관계가 없다 그러나 공분산이 0이라고 X와 Y가 독립임을 나타내지는 않는다!
그런데 이 공분산 값에는 문제점이 하나 있다, 바로 공분산의 값 자체가 상관관계의 절대적인 수치를 의미하지 않는다.
- 이게 무슨 말이냐?
- 만점이 100점인 A과목과 B과목의 공분산값은 전체적인 스케일 크기가 크겠지만 만점이 10점인 C과목과 D과목은 절대적인 크기가 작을 수 밖에 없다.
상관계수
위의 문제점을 극복하기 위해 공분산의 크기를 -1 ~ 1의 값으로 단위화 시킨 값이다.
1에 가까우면 두 확률변수가 양의 상관관계를
-1에 가까우면 음의 상관관계
0은 상관관계를 갖지 않는다
'⚡AI > ∃Mathematics' 카테고리의 다른 글
샘플링과 리샘플링 (0) | 2022.03.16 |
---|---|
eigen vector & eigenvalue (0) | 2022.03.16 |
딥러닝을 위한 통계학 맛보기 (0) | 2022.01.21 |
딥러닝을 위한 확률론 맛보기 (0) | 2022.01.21 |
딥러닝 학습방법(비선형모델 학습) (0) | 2022.01.20 |