PangLog
PangLog_k.k
PangLog
전체 방문자
오늘
어제
  • Category (77)
    • 💾기록 (2)
      • 📔기록 (2)
    • 🔧알고리즘 (10)
    • ⚡AI (17)
      • ∃Mathematics (11)
      • AI (5)
      • 논문 (1)
    • 👨‍💻Data Science (2)
    • 📚CS (4)
      • 📡컴퓨터 네트워크 (3)
      • 💾DB (0)
      • ⚙OS (1)
    • ⌨Programming (15)
      • Python (6)
      • Pytorch (3)
      • FastAPI (0)
      • Java (1)
      • Spring (3)
      • Elastic Search (2)
    • 💻 (23)
      • Git (9)
      • Issue sol (2)
      • Linux (2)
      • etc (7)
      • Web (2)
      • Docker (1)
    • 📰칼럼 (4)
      • IT (4)
      • 그 외 (0)
    • Review (0)

블로그 메뉴

  • 홈
  • Github

인기 글

최근 글

태그

  • 백준허브 이슈
  • URL URI 차이
  • cv2
  • 11660
  • inference
  • 자바
  • 쥬피터랩
  • 백준허브
  • 파이썬
  • SWEA
  • Python
  • K-디지털트레이닝 해커톤
  • 백준허브 에러
  • 탐색적 데이터 분석
  • 프로그래머스
  • pycham
  • 프로그래머스 체육복
  • cors
  • 외부단편화
  • 파이참
  • 5215
  • 깃허브
  • 옹알이(1)
  • 인퍼런스
  • 알고리즘
  • BOJ
  • Java
  • Jupyter Lab
  • 백준
  • 내부단편화
hELLO · Designed By 정상우.
PangLog

PangLog_k.k

⚡AI/∃Mathematics

샘플링과 리샘플링

2022. 3. 16. 17:05

샘플링이란?

  • 우리는 세상의 데이터들을 관측할 때 모든 데이터를 전부 살펴보기에는 힘듦
  • 따라서 일부만을 잘 뽑아내서 모집단 전체의 경향성을 살펴보고 싶음(모집단 전체에 대 한 추정)
  • 이 때 사용하는 것이 표본추출이고 이를 샘플링이라 함
  • 그러나 아무리 잘 뽑아내도 완벽히 모집단 그 자체와 같을 수는 없고 놓치는 부분이 생겨 노이즈가 존재할 수 밖에 없음 이를 보정하기 위해 또 리샘플링이라는 기법을 사용!'

리샘플링이란?

  • 일부의 표본추출만으로는 모집단의 분포 형태를 정확히 알 수 없음
  • 보유한 샘플들에서 다시 부분집합을 뽑아 통계량의 변동성을 확인하는 방법
  • 이를 리샘플링이라 함
  • 대표적인 예시로 k-fold 교차검증, bootstrapping 기법이 있음

k -fold 교차검증

 

일반적으로 train set, test set을 나눠 한 번만 평가하는 것보다 당연히 다양한 데이터에 대해서 학습을 진행 후 테스트해보는 것이 좋음

k-fold는 k-1개의 부분집합을 train set으로, 나머지 하나를 test set으로 사용하여 총 k번의 결과를 얻을 수 있음

 

그러나, '검증'이라는 말 그대로 모델에 여러번 검증을 수행하기 위한 방법이다. 즉, 모델이 데이터 변경에 얼마나 로버스트한지 확인하기 위한 용도이지 제일 좋은 모델을 뽑아내거나 하기 위한 방법이 아님! 예를 들어 k개 중 제일 성능이 잘 나오는걸 선택했다고 해도 다른 데이터에 적용할 시 오히려 제일 안 좋은 성능을 기록하는 결과를 낳을 수도 있음

 

그러나 일반적으로 K개의 모델을 앙상블처럼 결합해 주로 사용하긴 함 ㅎㅎ..

부트스트래핑

  • 간단히 말하면 내가 가지고 있는 샘플에서 임의의 랜덤샘플을 추출하는데 복원추출법을 사용하여 추출하는 기법
  • 이를 통해 샘플 통계량의 정확도를 측정할 수 있다

리샘플링의 장점

  • 표본을 추출하면서 원래의 데이터셋을 복원하기에 모집단의 분포에 어떤 가정도 필요 없이 표본만으로 추론이 가능

 

참고자료

https://kejdev.github.io/posts/sampling-resampling/

 

샘플링과 리샘플링의 차이는 무엇일까?

샘플링과 리샘플링은 여러곳에 다양하게 사용되기 때문에 알아둬야 한다. 샘플링과 리샘플링에 대해 간단하게 알아보자.

kejdev.github.io

 

반응형
저작자표시 비영리 변경금지 (새창열림)

'⚡AI > ∃Mathematics' 카테고리의 다른 글

조건부확률  (0) 2022.03.17
확률변수와 확률모형  (0) 2022.03.16
eigen vector & eigenvalue  (0) 2022.03.16
공분산과 상관계수  (0) 2022.02.03
딥러닝을 위한 통계학 맛보기  (0) 2022.01.21
    '⚡AI/∃Mathematics' 카테고리의 다른 글
    • 조건부확률
    • 확률변수와 확률모형
    • eigen vector & eigenvalue
    • 공분산과 상관계수
    PangLog
    PangLog

    티스토리툴바