샘플링이란?
- 우리는 세상의 데이터들을 관측할 때 모든 데이터를 전부 살펴보기에는 힘듦
- 따라서 일부만을 잘 뽑아내서 모집단 전체의 경향성을 살펴보고 싶음(모집단 전체에 대 한 추정)
- 이 때 사용하는 것이 표본추출이고 이를 샘플링이라 함
- 그러나 아무리 잘 뽑아내도 완벽히 모집단 그 자체와 같을 수는 없고 놓치는 부분이 생겨 노이즈가 존재할 수 밖에 없음 이를 보정하기 위해 또 리샘플링이라는 기법을 사용!'
리샘플링이란?
- 일부의 표본추출만으로는 모집단의 분포 형태를 정확히 알 수 없음
- 보유한 샘플들에서 다시 부분집합을 뽑아 통계량의 변동성을 확인하는 방법
- 이를 리샘플링이라 함
- 대표적인 예시로 k-fold 교차검증, bootstrapping 기법이 있음
k -fold 교차검증
일반적으로 train set, test set을 나눠 한 번만 평가하는 것보다 당연히 다양한 데이터에 대해서 학습을 진행 후 테스트해보는 것이 좋음
k-fold는 k-1개의 부분집합을 train set으로, 나머지 하나를 test set으로 사용하여 총 k번의 결과를 얻을 수 있음
그러나, '검증'이라는 말 그대로 모델에 여러번 검증을 수행하기 위한 방법이다. 즉, 모델이 데이터 변경에 얼마나 로버스트한지 확인하기 위한 용도이지 제일 좋은 모델을 뽑아내거나 하기 위한 방법이 아님! 예를 들어 k개 중 제일 성능이 잘 나오는걸 선택했다고 해도 다른 데이터에 적용할 시 오히려 제일 안 좋은 성능을 기록하는 결과를 낳을 수도 있음
그러나 일반적으로 K개의 모델을 앙상블처럼 결합해 주로 사용하긴 함 ㅎㅎ..
부트스트래핑
- 간단히 말하면 내가 가지고 있는 샘플에서 임의의 랜덤샘플을 추출하는데 복원추출법을 사용하여 추출하는 기법
- 이를 통해 샘플 통계량의 정확도를 측정할 수 있다
리샘플링의 장점
- 표본을 추출하면서 원래의 데이터셋을 복원하기에 모집단의 분포에 어떤 가정도 필요 없이 표본만으로 추론이 가능
참고자료
https://kejdev.github.io/posts/sampling-resampling/
반응형
'⚡AI > ∃Mathematics' 카테고리의 다른 글
조건부확률 (0) | 2022.03.17 |
---|---|
확률변수와 확률모형 (0) | 2022.03.16 |
eigen vector & eigenvalue (0) | 2022.03.16 |
공분산과 상관계수 (0) | 2022.02.03 |
딥러닝을 위한 통계학 맛보기 (0) | 2022.01.21 |