반응형

⚡AI/∃Mathematics

    누적분포 함수와 확률밀도 함수

    누적 분포 함수(Cumulative Distribution Function, CDF) 주어진 확률변수가 특정 값보다 작거나 같을 확률을 나타내는 함수 $$ F(a) = P(X ≤ a)$$ 확률밀도함수(probability density function) 연속확률변수 X에 대해서 F(x)가 누적분포함수 일 때 X의 확률밀도함수 f(x)는 아래와 같이 정의한다 $$ F(X) = \int^x_{-\infty} f(x) dx$$ ++추가 설명 확률 변수 X가 임의의 실수 집합 B에 포함되는 사건의 확률이 다음과 같이 음이 아닌 함수 f의 적분으로 주어진다 하자 $$ P(X \in B) = \int_{B} f(x) dx$$ 이 때 X를 연속확률변수라고 하고 f(x)를 확률 밀도 함수라고 한다. 이 때 해당 집합(..

    조건부확률

    조건부 확률은 무엇인가요? 사건 A가 일어났다는 전제 하에 사건 B가 일어날 확률 $$ P(B|A) = P(B \cap A) / P(A) $$ 이 조건부 확률은 베이즈 정리와도 이어져 매우매우 중요함! 베이즈 정리 데이터라는 조건이 주어졌을 때의 조건부확률을 구하는 공식 데이터가 주어지기 전의 사전확률 값이 데이터가 주어지면 어떻게 변하는지 계산할 수 있다 따라서 데이터가 주어지기 전에 이미 어느 정도 확률 값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 반영할수 있다 이는 데이터의 개수가 부족할 경우 아주 유용하고 데이터를 매일 추가적으로 얻는 상황에서도 매일 전체 데이터를 대상으로 새로 분석작업을 할 필요없이 어제분석결과에 오늘 들어온 데이터를 합쳐서 업데이트만 하면 되므로 유용..

    확률변수와 확률모형

    확률변수(Random Variable) 표본공간의 단위 사건에 대해 실수값을 mapping하는 함수 즉, 사건에 숫자를 부여하는 행위 가장 쉬운 예시는 주사위를 굴리는 상황 주사위를 굴렸을 때 나오는 어떤 값이 나올 확률로 해석 가능 ex) P(X=1) = 1/6 이 때 확률변수의 값을 셀 수 있는지 없는지에 따라 이산확률변수, 연속확률변수로 나눔 확률모형(Probability Model) 확률변수를 사용하여 데이터의 분포를 수학적으로 정의한 모형 이 때 수학적인 수식을 확률분포함수(probability distribution func), 식을 결정짓는 값을 모수(parameter)라고 한다. 가장 유명한 확률 모형 중 하나는 가우시안 정규분포가 있다 아래와 같은 함수들이 확률모형에 포함 될 수 있다. ..

    샘플링과 리샘플링

    샘플링이란? 우리는 세상의 데이터들을 관측할 때 모든 데이터를 전부 살펴보기에는 힘듦 따라서 일부만을 잘 뽑아내서 모집단 전체의 경향성을 살펴보고 싶음(모집단 전체에 대 한 추정) 이 때 사용하는 것이 표본추출이고 이를 샘플링이라 함 그러나 아무리 잘 뽑아내도 완벽히 모집단 그 자체와 같을 수는 없고 놓치는 부분이 생겨 노이즈가 존재할 수 밖에 없음 이를 보정하기 위해 또 리샘플링이라는 기법을 사용!' 리샘플링이란? 일부의 표본추출만으로는 모집단의 분포 형태를 정확히 알 수 없음 보유한 샘플들에서 다시 부분집합을 뽑아 통계량의 변동성을 확인하는 방법 이를 리샘플링이라 함 대표적인 예시로 k-fold 교차검증, bootstrapping 기법이 있음 k -fold 교차검증 일반적으로 train set, te..

    eigen vector & eigenvalue

    1. 고유값(eigen value)와 고유벡터(eigen vector)이 무엇이고 왜 중요한지 설명해주세요. nxn 행렬 A를 선형 변환으로 봤을 때, A에 의한 변환 결과가 자기 자신의 상수 배가 되는 0벡터가 아닌 벡터를 eigenvector라 하고 이 상수배 값을 eigenvalue라 한다. 선형 변환(Linear Transformation) : 선형 결합을 보존하는, 두 벡터 공간 사이의 함수 T(a+b) = T(a) + T(b), T(ca) = cT(a)를 만족하는 변환. 즉, 아래와 같은 식을 만족하는 열벡터 v를 eigenvector, 상수람다를 eigenvalue라 한다. $$ Av = \lambda v $$ 이때, eigen vector, eigen value는 행렬의 가장 중요한 정보를..

    공분산과 상관계수

    공분산(covariance)과 상관계수(correlation coefficient) Intro 세상에 대부분의 것들은 서로 독립적이지 않다. 서로 아무 관련도 없어 보이는 것들 조차도 알고보면 관련이 있을 때도 있다. 서로 얼마만큼의 연관이 있는지 알 수 있는 방법이 있을까? 단순히 A가 올라갈 때 B도 올라가니 서로 연관이 있어! 같은 무식한 소리는 하면 안되니 이에 대해 아라보자 공분산 집 앞 편의점 매출데이터를 살펴보자, X = 맥주 판매량, Y = 마른안주 판매량이라 가정해보자, 편의점 사장님께 둘은 연관이 있으니 맥주가 많이 팔리면 마른안주의 발주량을 늘리라거나 마른안주가 많이 팔리면 맥주를 늘리라고 조언을 해드렸다. 과연 어떻게 됐을까? 썩 꺼지고 다음부터 오지말라는 소리를 들었다. 사장님이 ..

    딥러닝을 위한 통계학 맛보기

    Q) 통계적 모델링의 목표는 무엇일까? 적절한 가정 위에서 확률분포를 추정하는 것이 목표이다! 이는 머신러닝과 통계학이 공통적으로 추구하는 목표와 같다 But, 모든 데이터를 관측하기는 힘들다 그렇다고 해서 일부 데이터만 보고서 모집단의 분포를 정확하게 알아낼 수도 없다. 그렇기에 우리는 근사적으로 확률분포를 추정하는 수 밖에 없다!!! 정확하게 분포를 맞추는 것이 아닌 데이터와 추정 방법의 불확실성을 고려해 리스크를 최소화하는 것이 목적이다 모수적 방법론 vs 비모수방법론 모수적(parametric)방법론 : 데이터가 특정 확률분포를 따른다고 선험적(a priori)가정한 후 그 분포를 결정하는 모수를 추정하는 방법 비모수방법론 : 특정 확률분포를 가정하지 않고 데이터에 따라 모델의 구조 및 모수의 개..

    딥러닝을 위한 확률론 맛보기

    딥러닝에서 확률론이 필요한 이유는 무엇일까? 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두기 때문 손실함수(loss function)들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도하기 떄문 우리의 목표는 결국 정답을 맞추는 것인데 예측이 틀릴 위험을 최소화하려면 통계적 기계학습의 방법을 사용해야한다. 이에 대한 예시는 다음과 같으며 이는 오차 또는 불확실성을 최소화하도록 유도한다 회귀분석에서 사용되는 loss func으로 사용되는 L2 분류 문제에서 사용되는 cross-entropy 결국 분산 및 불확실성을 최소화하기위해서는 기준을 세워야 하고 이를 측정하는 방법을 알아야한다 이 때, 두 대상을 측정하는 방법을 통계학에서 제공한다! 확률변수 확률변수는 확률분포에 따라 이산형(discrete)..