Probability theory

샘플링(Sampling)과 리샘플링(Resampling)

호Tuck 2023. 1. 15. 21:50

샘플링 (Sampling)

표본추출을 의미하며, 모집단으로부터 무작위(임의의) Sample을 뽑는 것을 의미한다.

예를들어 우리나라 사람들의 IQ 분포(모집단)가 있다고 하자.

이때 모든 사람의 IQ를 알기란 어렵기 때문에, 샘플링을 통해 어느정도의 모집단을 추론(Inference) 할 수 있다.  

 

하지만 이렇게 샘플링 된 데이터는 모집단 그 자체는 아니기 때문에, 모집단과 유사하지만 노이즈가 존재한다.  

우리나라 사람들의 IQ분포를 샘플링을 통해 100명을 뽑아 구성했는데, 이 100명의 데이터의 추세가 모집단과 비슷할 수는 있지만 동일하지 않기 때문이다. 원래의 모집단의 패턴과 다를 수 있음을 뜻한다. 

 

 

따라서 이를 보완하기 위해 리샘플링을 해볼 수 있다.

 

 

리샘플링 (Resampling)

리샘플링은 아까 뽑은 샘플링 데이터에서, 또다시 데이터를 샘플링하는 것 이다. => 이로서 데이터의 통계량 변동성을 확인하는 것이다. 같은 샘플을 여러번 사용하게 되는 것과 같다. 

예시로는 Fold Cross Validation, Bootstrapping이 있다. 

 

 

- K-Fold Cross Validation

데이터 샘플을 K개의 Fold로 나눈 뒤, K-1개의 데이터로 학습을 진행하고 학습을 진행하지 않은 폴더를 Test 성능 평가로 이용하는 것을 의미한다. 이렇게 총 K번 반복을 통해 성능을 도출 한 뒤, 이를 K로 나누어 평균한다. 

 

 

- Bootstrapping

위에서 샘플링한 표본에서 하나를 뽑는 과정을 n번 반복해, 재표본추출한 값의 평균을 구한다. 이 전체의 과정을 R번 반복해 신뢰구간을 구한다. 데이터의 중복사용을 허용하는 것이다. 

 

 

K-Fold Cross Validation의 기법을 사용하는 상황과 Bootstrapping 기법을 사용하는 상황은 같다고 할 수 있다. 

 

참고

[1] https://cnp-0717.tistory.com/7

 

(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편

이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 샘플링과 리샘플링이란?

cnp-0717.tistory.com

[2] https://velog.io/@ohs2251/Sampling-and-Resampling