Q) 통계적 모델링의 목표는 무엇일까?
- 적절한 가정 위에서 확률분포를 추정하는 것이 목표이다!
- 이는 머신러닝과 통계학이 공통적으로 추구하는 목표와 같다
- But, 모든 데이터를 관측하기는 힘들다 그렇다고 해서 일부 데이터만 보고서 모집단의 분포를 정확하게 알아낼 수도 없다. 그렇기에 우리는 근사적으로 확률분포를 추정하는 수 밖에 없다!!!
정확하게 분포를 맞추는 것이 아닌 데이터와 추정 방법의 불확실성을 고려해 리스크를 최소화하는 것이 목적이다
모수적 방법론 vs 비모수방법론
- 모수적(parametric)방법론 : 데이터가 특정 확률분포를 따른다고 선험적(a priori)가정한 후 그 분포를 결정하는 모수를 추정하는 방법
- 비모수방법론 : 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개수가 유연하게 바뀌는 방법론
- 데이터의 형태에 따라 확률분포를 가정할 수 있다, 예를 들어 데이터가 2개의 값만 가지는 경우 베르누이 분포를 가정할 수 있고 n개의 이산적인 값을 가진다면 카테고리분포로 가정할 수 있다
- But, 특정 형태를 보인다고해서 기계적으로 확률분포를 가정해서는 안되고 데이터를 생성하는 원리를 먼저 고려해야한다
- 또한 모수추정 후에는 반드시 검정을 통해 확인을 해야한다
모수 추정
- 데이터의 확률분포를 가정한 후 모수를 추정할 수 있다
- 정규분포의 모수는 평균과 분산으로 이를 추정하는 통계량(statistic)은 다음과 같다
표집분포(sampling distribution) : 통계량의 확률분포
- Thm) Central Limit Theorem(중심 극한 정리)
- 표본평균의 표집분포는 N이 커질수록 정규분포를 따른다
- 이는 모집단의 분포가 정규분포를 따르지 않아도 성립한다
- 여기서 주의할 것은 표본평균의 표집분포가 정규분포를 따르는 것이지 모집단이 정규분포가 아니라면 표본수가 아무리 커도 정규분포를 따르지 않는다.
최대가능도 추정법(Maximum likelihood estimation, MLE)
- 표본평균, 표본분산은 분명히 중요한 통계량이지만 확률분포마다 사용하는 모수가 다르기에 확률분포에 따라 적절한 통계량이 달라지게 된다
확률 vs 가능도
확률 : 주어진(고정된)확률분포에서 해당 관측값이 나올 확률
가능도(likelihood) : 주어진(고정된) 관측값에서 이것이 해당 확률분포에서 나왔을 확률
- 이 때, 이론적으로 가장 가능성이 높은 모수를 추정하는 방법 중 하나인 MLE가 있다
- 확률밀도 함수는 모수가 주어졌을 때 x에 관한 함수를 나타내지만 likelihood는 주어진 데이터 x에 대해서 모수를 변수로 둔 함수이다
- 즉, 데이터가 주어진 상황에서 세타를 변형시킴에 따라 바뀌는 함수이다
- <주의> likelihood함수는 모수를 따르는 분포가 x를 관찰할 가능성을 뜻하긴 하지만 확률로 해석하면 안된다
보통 MLE를 사용할 때 로그를 취해서 사용하는데 그에 대한 이점은 아래와 같다
1. 데이터의 수가 크다면 기존의 MLE로는 계산불가하는 것이 로그가능도는 계산이 가능하다
2. 데이터가 독립일 경우, 로그를 사용하면 곱셈이 덧셈으로 바뀌어 컴퓨터로 연산이 가능하다
3. gradient decent방법으로 가능도를 최적화할 때 로그 가능도를 사용하면 연산량을 O(n^2)에서 O(n)으로 줄여준다
4. 대게의 loss function의 경우 경사하강법을 사용하므로 음의 로그가능도를 최적화하게 된다
딥러닝에서의 MLE
- 딥러닝 모델의 가중치를 아래와 같이 표기했을 때
$$\theta=(W^{(1)},...,W^{(L)}) \text{분류 문제에서 소프트맥스 벡터는 카테고리분포의 모수} (p_1,..,p_k) \text{를 모델링한다}$$
- one-hot 벡터로 표현한 정답레이블 y을 관찰데이터로 이용해 확률분포인 소프트맥스 벡터의 로그가능도를 최적화할 수 있다
확률분포의 거리
- 머신러닝에서 사용되는 loss function들은 모델이 학습하는 확률분포와 데이터에서 관찰되는 확률분포의 거리를 통해 유도한다
- 데이터공간에 두 개의 확률분포 P(X), Q(X)가 있을 경우 두 확률분포 사이의 거리(distance)를 계산할 때 다음과 같은 함수를 이용한다
- Total Variation Distance, TV
- Kullback-Leibler Divergence, KL(엄밀하게 이 자체만으로는 엔트로피의 거리를 뜻한다)
- Wasserstein Distance
KL Divergence
- KL Divergence는 아래와 같이 정의한다
- 또한 아래와 같이 분해할 수 있다
- 여기서 KL Divergence에 아래와 같이 중요한 특징 2가지가 있다
- 첫 째, KL은 cross-entropy에서 entropy를 뺀 값이기에 최소 0 이상이다
- 둘 째, 정의를 이용한 식을 보면 둘은 당연히 다르다 따라서 KL Divergence는 거리개념으로 보기에는 부족하다, 그러나 Jensen-Shannon divergence를 도입하면 거리개념으로 볼 수 있다
- 따라서 거리개념으로 보기보다는 entropy의 차이를 계산하는 보는 것이 조금 더 알맞을 것 같다
- 또한 분류 문제에서 정답레이블을 P, 모델 예측을 Q라 하면 MLE는 KLD를 최소화 하는 것과 같다
+Jensen-Shannon divergence 찾아보기
- MLE는 주어진 데이터를 통해 목적으로하는 확률분포의 모수를 최대화 하는 것이고 이는 확률분포 거리를 최소화 하는 것과 밀접하게 연관이 있다.
Q) 베이즈 정리란?
- 베이즈정리는 사전확률과 사후 관계를 정리한 것으로 사전확률을 이용해 사후 확률을 계산할 수 있다.
- 즉, 조건부확률을 이용하여 정보를 갱신할 수 있다
조건부 확률은 유용한 통계적 해석을 제공하지만 인과관계(causality)를 추론할 때 함부로 사용해서는 안된다
반응형
'⚡AI > ∃Mathematics' 카테고리의 다른 글
eigen vector & eigenvalue (0) | 2022.03.16 |
---|---|
공분산과 상관계수 (0) | 2022.02.03 |
딥러닝을 위한 확률론 맛보기 (0) | 2022.01.21 |
딥러닝 학습방법(비선형모델 학습) (0) | 2022.01.20 |
경사하강법(Gradient Decent) (0) | 2022.01.19 |