Q) 조건부 확률이란 무엇인가요 ???

 

- 조건부 확률

조건부 확률은 어떤 사건이 일어날 경우, 다른 사건이 일어날 확률을 말합니다.

즉 B라는 사건이 일어나는 경우에 A라는 사건이 일어날 확률을 의미하며, 이때 사건 B에 대한 A의 조건부 확률이라고 할 수 있습니다.

기호로는 P(A|B)라고 표시합니다. (오른쪽 Term이 사전에 일어나는 사건을 칭함)

 

예시를 들어 설명해 볼까요?

만약 내가 학교에 갔을 때 비가 올 확률을 구한다고 생각해봅시다.

내가 학교에 갔을 때 = P(학교 갔을 때)

비가 올 확률 = P(비가 올 확률)

이라고 하면, 조건부 확률은

P(비가 올 확률|학교 갔을 때)가 됩니다. 

 

또한 조건부 P(A|B)는 아래와 같은 식으로 변환할 수 있습니다.

 

베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / T 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요.

 

 

- 베르누이 분포

결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행이라고 하는데, 이 결과를 0(-1) 또는 1로 치환한 것을 베르누이 확률변수(Bernoulli trial) 라고 한다. 

만약 어떤 사건에 대한 확률변수 X가 베르누이확률변수로부터 발생한다면, 다음과 같은 수식으로 쓸 수 있다. 

베르누이분포의 질량함수 수식은 다음과 같다. 

베르누이분포의 질량함수는 1이 나올 확률을 의미하는 모수를 가진다.

 

 

- 이항 분포

이항분포는 연속된 n번 독립적 시행에서 각 시행이 확률 p를 가질 때 이산확률분포라고 정의할 수 있다.

수식은 다음과 같다. 

성공확률 p를 가지는 이벤트를 n번 독립적으로 수행할 때, 이벤트가 k번의 성공을 일으킬 확률을 의미한다. 

n=15, p가 0.3일 경우 이항분포

- 카테고리 분포

베르누이 분포의 확장판이라고 할 수 있다. 베르누이분포가 이진분류문제(binary classification)이라면, 카테고리분포는 다중분류문제(multi-class classification)에 쓰일 수 있다. 

결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행이라고 하는데, 카테고리분포는 두가지 중 하나로만 나오는 것이 아닌 여러가지 중 하나가 나올 경우로 치환할 수 있다. 

 

예를들어 베르누이 분포가 동전을 던져서 나오는 경우라면, 카테고리 분포는 주사위를 던져 특정 눈이 나오는 경우이다. 

주사위로 나오는 경우를 One-Hot-Encoding을 통해 다차원 벡터를 출력한다.

 

카테고리 확률분포는 다음과 같이 표기할 수 있다. 

확률질량함수는 다음과 같다. 

- 다항 분포

위키백과의 정의에 따르면, 다항 분포는 "여러개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포"를 의미한다.

어떤 시행에서 k가지의 값이 나타날 수 있으며 그 값이 나타날 확률이 P1,P2 ... 로 각각 다를 때 n번의 시행에서 어떤 특정 i번째 값이 x회 나타날 확률은 다음과 같다.  

 

- 가우시안 정규분포

가우시안정규분포는 평균과 표준편차가 주어져 있을 때 엔트로피를 최대화 하는 분포이며, 자연 현상에서 나타나는 숫자를 확률모형으로 나타낼 때 자주 사용한다. 

확률밀도를 나타내는 식은 다음과 같다.

 

평균0, 표준편차 1일때 분포

- 감마 분포

정규분포로 설명할 수 없는 부분을 보완하기 위해 나온 확률분포이다. 

연속확률변수 X와 양수인 두 변수 alpha, beta를 포함한 감마분포의 확률밀도함수는 다음과 같다. 

이때 gamma(n+1)=n!

감마분포는 alpha번째 사건이 일어날 때 까지 걸리는 시간에 대한 연속확률분포이다. alpha(형태 모수), beta(척도 모수)는 둘다 모수이다.

연속확률변수 X가 감마분포를 따른다면,

E(X) = mean = alpha*beta

Var(X) = sigma^2 = alpha * beta^2

를 만족한다. 

alpha, beta에 따른 확률밀도함수는 다음과 같다. 

출처 :https://blog.naver.com/mykepzzang/220842759639

 

- 카이제곱 분포 

감마분포의 특수한 형태이다. 

감마 분포에서 alpha = v/2, beta =2를 대입하면 카이제곱 분포가 된다. 

카이제곱분포(v = 자유도)

확률변수 X가 자유도 v인 카이제곱 분포를 나타내면 다음과 같다. 

 

 

 

- T 분포 (Student's t-Distribution)

t분포는 표본평균을 이용해 정규분포의 평균을 해석할 때 많이 사용한다. 

t분포는 새로운 확률변수(T)를 정의하는데, 

확률변수 Z가 표준정규분포를 따르고, 자유도가 v인 카이제곱분포를 따를 때 새로운 확률 변수 T는 다음과 같다. 

 

확률변수 T의 확률밀도함수 f(t)라고 할 때, 

 

f(t)를 자유도 v를 가진 t-분포의 확률밀도함수라고 한다. 

표본의 크기가 30보다 작으면 t분포를 사용해야 한다. 

 

- F 분포

2개 이상의 표본 평균이 똑같은 모집단에서 추출되었는지, 아니면 서로 다른 모집단에서 추출된 것인지를 판단하기 위해 사용한다.

정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속확률분포이다. 

 

서로 독립인 두 확률변수 U, V가 각각 자유도가 v1, v2인 카이제곱분포를 따를 때, 

새로운 확률변수 F = ((U/v1)/(V/v2))는 자유도가 (v1, v2)인 F-분포를 따른다.

확률밀도함수는 다음과 같다. 

 

 

 

- 베타 분포

베타분포는 0~1까지의 값을 가지는 베르누이분포 모수 u의 값을 베이지안 추정(모수 u의 값을 베이지안 추정한 결과)한 결과를 표현한 것이다. 확률에 대한 확률분포라고도 할 수 있다. 

확률밀도함수는 다음과 같다. 

베타분포의 예시로 다음과 같이 얘기할 수 있다.

내가 오늘 학교를 갔을 때 학식을 먹을 확률이 0.5보다 클 확률을 구하고 싶다면 베타분포를 이용할 수 있다. 

 

 

- 디리클레 분포

베타분포의 확장판이라고 할 수 있다. 

베타분포가 단일 확률변수의 베이지안 모형이라면, 디리클레분포는 0과 1사이의 값을 가지는 다변수 확률변수의 베이지안 모형에 사용된다. 

디리클레분포의 확률밀도함수는 다음과 같다.

 

 

 

 

 

REFERENCE

[1]https://datascienceschool.net/02%20mathematics/08.02%20%EB%B2%A0%EB%A5%B4%EB%88%84%EC%9D%B4%EB%B6%84%ED%8F%AC%EC%99%80%20%EC%9D%B4%ED%95%AD%EB%B6%84%ED%8F%AC.html

[2]https://angeloyeo.github.io/2021/04/23/binomial_distribution.html

[3]https://datascienceschool.net/02%20mathematics/08.03%20%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC%EB%B6%84%ED%8F%AC%EC%99%80%20%EB%8B%A4%ED%95%AD%EB%B6%84%ED%8F%AC.html

[4]https://ko.wikipedia.org/wiki/%EB%8B%A4%ED%95%AD_%EB%B6%84%ED%8F%AC

[5]https://datascienceschool.net/02%20mathematics/08.03%20%EC%B9%B4%ED%85%8C%EA%B3%A0%EB%A6%AC%EB%B6%84%ED%8F%AC%EC%99%80%20%EB%8B%A4%ED%95%AD%EB%B6%84%ED%8F%AC.html

[6]https://m.blog.naver.com/mykepzzang/220853827288

[7]https://blog.naver.com/mykepzzang/220842759639

[8]https://blog.naver.com/mykepzzang/220853827288

[9]https://blog.naver.com/mykepzzang/220855136935

[10]https://datascienceschool.net/02%20mathematics/08.07%20%EB%B2%A0%ED%83%80%EB%B6%84%ED%8F%AC%2C%20%EA%B0%90%EB%A7%88%EB%B6%84%ED%8F%AC%2C%20%EB%94%94%EB%A6%AC%ED%81%B4%EB%A0%88%20%EB%B6%84%ED%8F%AC.html

- 신뢰구간이란?

모수가 실제로 포함될 것으로 예측되는 범위이며, 표본들을 추출했을 때 그 표본들을 기반으로 모수의 범위를 추정하기 위해 사용된다. 신뢰구간의 수식은 아래와 같다. 

 

수식에 따르면 n이 커질 수록(표본의 크기가 커질 수록), 신뢰구간은 더 좁아짐을 알 수 있다. => 신뢰도 높은 추정 값 제공 

집단 전체의 샘플을 추출하는 것은 불가능하므로, 표본을 기반으로 모수의 범위를 추정할 수 있다. 

 

샘플링 (Sampling)

표본추출을 의미하며, 모집단으로부터 무작위(임의의) Sample을 뽑는 것을 의미한다.

예를들어 우리나라 사람들의 IQ 분포(모집단)가 있다고 하자.

이때 모든 사람의 IQ를 알기란 어렵기 때문에, 샘플링을 통해 어느정도의 모집단을 추론(Inference) 할 수 있다.  

 

하지만 이렇게 샘플링 된 데이터는 모집단 그 자체는 아니기 때문에, 모집단과 유사하지만 노이즈가 존재한다.  

우리나라 사람들의 IQ분포를 샘플링을 통해 100명을 뽑아 구성했는데, 이 100명의 데이터의 추세가 모집단과 비슷할 수는 있지만 동일하지 않기 때문이다. 원래의 모집단의 패턴과 다를 수 있음을 뜻한다. 

 

 

따라서 이를 보완하기 위해 리샘플링을 해볼 수 있다.

 

 

리샘플링 (Resampling)

리샘플링은 아까 뽑은 샘플링 데이터에서, 또다시 데이터를 샘플링하는 것 이다. => 이로서 데이터의 통계량 변동성을 확인하는 것이다. 같은 샘플을 여러번 사용하게 되는 것과 같다. 

예시로는 Fold Cross Validation, Bootstrapping이 있다. 

 

 

- K-Fold Cross Validation

데이터 샘플을 K개의 Fold로 나눈 뒤, K-1개의 데이터로 학습을 진행하고 학습을 진행하지 않은 폴더를 Test 성능 평가로 이용하는 것을 의미한다. 이렇게 총 K번 반복을 통해 성능을 도출 한 뒤, 이를 K로 나누어 평균한다. 

 

 

- Bootstrapping

위에서 샘플링한 표본에서 하나를 뽑는 과정을 n번 반복해, 재표본추출한 값의 평균을 구한다. 이 전체의 과정을 R번 반복해 신뢰구간을 구한다. 데이터의 중복사용을 허용하는 것이다. 

 

 

K-Fold Cross Validation의 기법을 사용하는 상황과 Bootstrapping 기법을 사용하는 상황은 같다고 할 수 있다. 

 

참고

[1] https://cnp-0717.tistory.com/7

 

(데이터과학 인터뷰 질문)(2) 샘플링과 리샘플링, 1편

이 글 시리즈는 zzsza.github.io/data/2018/02/17/datascience-interivew-questions/에 있는 에 스스로 대답해보면서 정리해보고자 적어가는 글입니다. 주인장 분께 감사의 말씀 드립니다! 샘플링과 리샘플링이란?

cnp-0717.tistory.com

[2] https://velog.io/@ohs2251/Sampling-and-Resampling

 

 

 

출처:

https://www.youtube.com/watch?v=8idr1WZ1A7Q&t=5s 

 

 

 

 

안녕하세요

호떡입니다.

 

 

 

좋은 오후네요.

 

오늘 자랑 하나 하자면,,

잠을 12시간이나 잤습니다!

오히려 잠을 더 자니 멍한 기운이 드는 군요. 

 

 

 

다들 기운 차리시고 오늘의 포스팅 시작하도록 하겠습니다.

 

 

-----------------------------------------------------------------------------------------------------------------------------------------------------------------

 

 

 

 

 

Probabilities of probabilities Part 1.

 

 

 

 

 

 

여러분은 이번에 휴대폰을 사려고 합니다.

 

 

 

아이폰 13 mini, 아이폰 13, 아이폰 13 pro 중에 고민중이죠.

 

그리고 각각 제품의 후기를 보게 됩니다.

 

 

 

 

아이폰 13 mini의 후기는 10개의, 100%의 만족률이었습니다.

아이폰 13은 50개의 리뷰, 96%의 만족률이죠.

아이폰 13 pro 는 200개의 리뷰, 93%의 만족률이었습니다.

 

 

 

 

그럼 여러분은 단순히 리뷰만 가지고 어떤 것을 사야할지 판단할때, 

무엇을 사야 할까요?

 

 

 

 

 

 

 

 

 

 

확률로만 따지자면 아이폰 13미니를 사는게 최선의 방법일 겁니다. (사실 제 폰이 아이폰 13 mini ㅎㅎ)

그렇지만, 10건의 리뷰밖에 존재하지 않죠.

내가 저 물건을 샀을 때, 만족할 확률을 알아야하는데..

 

이는 어떻게 알 수 있을 까요?

 

 

 

 

바로

리뷰가 더 있는듯 생각하면 됩니다.

예를들어 리뷰가 2개 더 있다고 생각해보죠.

 

 

 

 

그리고 하나는 만족, 하나는 불만족이라고 가정합니다.

아래 그림처럼 말이죠.

 

 

 

 

 

 

 

 

 

 

 

 

원래는 10개중에 10개의 리뷰 모두 100%였다면, 

여기서는 12개의 리뷰가 있고 1개의 리뷰가 불만족이니

총확률은 11/12 = 91.7%가 됩니다.

 

이런식으로 모두 계산해보면,

 

 

 

아이폰 13 mini ==> 91.7% (내가 샀을 때 만족할 확률)

아이폰 13 ==> 49/52 == 94.2%

아이폰 13 pro ==> 187/202 = 92.5%

 

 

즉, 내가 샀을 때 만족도가 제일 높은 제품은 아이폰 13입니다!

 

 

이런식으로 계산하는 것을 라플라스의 성공법칙이라고 하죠.

 

 

 

 

 

 

자, 그럼 다른 경우를 생각해봅시다. 

 

 

 

 

만족할 확률 s=0.95 가 주어졌을 때,

48개의 리뷰가 만족이고, 2건의 리뷰가 불만족일 확률은 어떻게 될까요?

 

 

 

 

 

여러 번의 시뮬레이션을 돌려보고, 아래와 같은 분포가 나왔다고 가정해보죠.

바로 확률의 확률입니다.

 

만족할 확률이 주어졌을 때, 해당 확률(데이터)가 나올 확률이죠.

 

 

 

 

 

 

 

 

 

위의 그림과 같이 전체확률에서 48개의 참, 2개의 불만족이 나올 확률은 26%이죠.

이와 같은 분포는 다음과 같은 식으로 구할 수 있습니다. 

 

 

 

 

 

 

 

 

 

 

50개중에 랜덤으로 48개를 택하고, s가 맞을 확률인 0.95와 아닐 확률 1-0.95에 각각의 개수를 제곱하여 곱해줍니다. 

이때 각각의 리뷰가 서로 영향을 주지 않죠.

즉, 독립적인 사건을 가정으로 합니다.

 

 

 

 

 

이렇게 만들어진 분포를 "Binomial Distribution"입니다.

확률론에서 가장 기본적인 분포이죠.

 

 

 

 

 

 

하지만 우리가 알고자하는것은 s가 주어졌을 때의 상황이 아닌,

어떤 데이터가 주어졌을 때 어느 s가 참일 확률이죠.

이는 베이즈 이론을 통해 구할 수 있게 됩니다.

 

 

하지만 오늘 우리가 알게 된 것은!!

확률 s가 주어졌을 때, 해당 data가 나올확률입니다.

 

 

 

 

 

 

 

그럼 뿅~

 

 

+ Recent posts