베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / T 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포
베르누이 분포 / 이항 분포 / 카테고리 분포 / 다항 분포 / 가우시안 정규 분포 / T 분포 / 카이제곱 분포 / F 분포 / 베타 분포 / 감마 분포 / 디리클레 분포에 대해 설명해주세요. 혹시 연관된 분포가 있다면 연관 관계를 설명해주세요.
- 베르누이 분포
결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행이라고 하는데, 이 결과를 0(-1) 또는 1로 치환한 것을 베르누이 확률변수(Bernoulli trial) 라고 한다.
만약 어떤 사건에 대한 확률변수 X가 베르누이확률변수로부터 발생한다면, 다음과 같은 수식으로 쓸 수 있다.
베르누이분포의 질량함수 수식은 다음과 같다.
베르누이분포의 질량함수는 1이 나올 확률을 의미하는 모수를 가진다.
- 이항 분포
이항분포는 연속된 n번 독립적 시행에서 각 시행이 확률 p를 가질 때 이산확률분포라고 정의할 수 있다.
수식은 다음과 같다.
성공확률 p를 가지는 이벤트를 n번 독립적으로 수행할 때, 이벤트가 k번의 성공을 일으킬 확률을 의미한다.
n=15, p가 0.3일 경우 이항분포
- 카테고리 분포
베르누이 분포의 확장판이라고 할 수 있다. 베르누이분포가 이진분류문제(binary classification)이라면, 카테고리분포는 다중분류문제(multi-class classification)에 쓰일 수 있다.
결과가 두 가지 중 하나로만 나오는 실험이나 시행을 베르누이 시행이라고 하는데, 카테고리분포는 두가지 중 하나로만 나오는 것이 아닌 여러가지 중 하나가 나올 경우로 치환할 수 있다.
예를들어 베르누이 분포가 동전을 던져서 나오는 경우라면, 카테고리 분포는 주사위를 던져 특정 눈이 나오는 경우이다.
주사위로 나오는 경우를 One-Hot-Encoding을 통해 다차원 벡터를 출력한다.
카테고리 확률분포는 다음과 같이 표기할 수 있다.
확률질량함수는 다음과 같다.
- 다항 분포
위키백과의 정의에 따르면, 다항 분포는 "여러개의 값을 가질 수 있는 독립 확률변수들에 대한 확률분포"를 의미한다.
어떤 시행에서 k가지의 값이 나타날 수 있으며 그 값이 나타날 확률이 P1,P2 ... 로 각각 다를 때 n번의 시행에서 어떤 특정 i번째 값이 x회 나타날 확률은 다음과 같다.
- 가우시안 정규분포
가우시안정규분포는 평균과 표준편차가 주어져 있을 때 엔트로피를 최대화 하는 분포이며, 자연 현상에서 나타나는 숫자를 확률모형으로 나타낼 때 자주 사용한다.
확률밀도를 나타내는 식은 다음과 같다.
평균0, 표준편차 1일때 분포
- 감마 분포
정규분포로 설명할 수 없는 부분을 보완하기 위해 나온 확률분포이다.
연속확률변수 X와 양수인 두 변수 alpha, beta를 포함한 감마분포의 확률밀도함수는 다음과 같다.
이때 gamma(n+1)=n!
감마분포는 alpha번째 사건이 일어날 때 까지 걸리는 시간에 대한 연속확률분포이다. alpha(형태 모수), beta(척도 모수)는 둘다 모수이다.
연속확률변수 X가 감마분포를 따른다면,
E(X) = mean = alpha*beta
Var(X) = sigma^2 = alpha * beta^2
를 만족한다.
alpha, beta에 따른 확률밀도함수는 다음과 같다.
출처 :https://blog.naver.com/mykepzzang/220842759639
- 카이제곱 분포
감마분포의 특수한 형태이다.
감마 분포에서 alpha = v/2, beta =2를 대입하면 카이제곱 분포가 된다.
카이제곱분포(v = 자유도)
확률변수 X가 자유도 v인 카이제곱 분포를 나타내면 다음과 같다.
- T 분포 (Student's t-Distribution)
t분포는 표본평균을 이용해 정규분포의 평균을 해석할 때 많이 사용한다.
t분포는 새로운 확률변수(T)를 정의하는데,
확률변수 Z가 표준정규분포를 따르고, 자유도가 v인 카이제곱분포를 따를 때 새로운 확률 변수 T는 다음과 같다.
확률변수 T의 확률밀도함수 f(t)라고 할 때,
f(t)를 자유도 v를 가진 t-분포의 확률밀도함수라고 한다.
표본의 크기가 30보다 작으면 t분포를 사용해야 한다.
- F 분포
2개 이상의 표본 평균이 똑같은 모집단에서 추출되었는지, 아니면 서로 다른 모집단에서 추출된 것인지를 판단하기 위해 사용한다.
정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산비율이 나타내는 연속확률분포이다.
서로 독립인 두 확률변수 U, V가 각각 자유도가 v1, v2인 카이제곱분포를 따를 때,
새로운 확률변수 F = ((U/v1)/(V/v2))는 자유도가 (v1, v2)인 F-분포를 따른다.
확률밀도함수는 다음과 같다.
- 베타 분포
베타분포는 0~1까지의 값을 가지는 베르누이분포 모수 u의 값을 베이지안 추정(모수 u의 값을 베이지안 추정한 결과)한 결과를 표현한 것이다. 확률에 대한 확률분포라고도 할 수 있다.
확률밀도함수는 다음과 같다.
베타분포의 예시로 다음과 같이 얘기할 수 있다.
내가 오늘 학교를 갔을 때 학식을 먹을 확률이 0.5보다 클 확률을 구하고 싶다면 베타분포를 이용할 수 있다.
- 디리클레 분포
베타분포의 확장판이라고 할 수 있다.
베타분포가 단일 확률변수의 베이지안 모형이라면, 디리클레분포는 0과 1사이의 값을 가지는 다변수 확률변수의 베이지안 모형에 사용된다.
디리클레분포의 확률밀도함수는 다음과 같다.
REFERENCE
[2]https://angeloyeo.github.io/2021/04/23/binomial_distribution.html
[4]https://ko.wikipedia.org/wiki/%EB%8B%A4%ED%95%AD_%EB%B6%84%ED%8F%AC
[6]https://m.blog.naver.com/mykepzzang/220853827288
[7]https://blog.naver.com/mykepzzang/220842759639
[8]https://blog.naver.com/mykepzzang/220853827288