MLE(최대우도법)과 MAP(최대사후법) 정리

개발 및 공부/네이버 부스트캠프 AI Tech 2기

MLE(최대우도법)과 MAP(최대사후법) 정리

Hㅏㄴ량 2021. 8. 26. 17:36

함수표기법( ; 와 | 의 차이)

| : 조건부확률 표기할 때
; : 함수의 parameter를 나타냄
출처: http://taewan.kim/post/function_in_semicolon/
확률변수와 확률분포의 관점에서 보았을 때: https://blog.naver.com/kyoungblee/222460452018

모수와 표본

모집단(popilation): 관측 대상이 되는 전체 집단
- 모수(parameter): 모평균, 모표준편차, 모분산등 모집단의 데이터
  - 모평균: $\mu$
  - 모분산: $\sigma^2$
  - 모표준편차: $\sigma$

표본(sample): 모집단의 부분집합
- 표본 통계량(sample statistic): 표본에 의존하는 통계량
  - 표본평균: ${\displaystyle {\bar {X}}}$
  - 표본분산: $S^2$
  - 표본표준편차: $S$

확률변수(Random Variable)

$$
X = fx(x;\theta) = p(x;\theta)
$$

확률변수 $X$는 이산(discrete)일 경우 확률질량함수, 연속(continuous)일 경우 확률밀도함수라고 부른다.

$x$: $X$가 취할 수 있는 값
$\theta$: 확률밀도함수의 모수
- 둘 다 scalar, vector 가능

최대가능도 추정법(MLE, Maximum Likelihood Estimation)

모수추정에서는 $x$(어떤 분포에 대해 나올 수 있는 확률밀도, 상수벡터)를 알고, $\theta$(변수벡터)를 모른다.
$$
L(θ;x) = fx(x;\theta) = p(x;\theta)
$$
복수의 표본값에 대한 결합확률밀도
$$
p(x;θ)=p(x_1,x_2,⋯,x_n;θ)
$$
$x_1, x_2, ... x_n$은 $i.i.d$이기 때문에 결합확률밀도함수는 독립사건의 확률 계산에 의해 다음처럼 곱으로 표현된다
$$
P(x|\theta) = \prod_{k=1}^{n}P(x_k|\theta)
$$
위 식의 결과값이 가장 커지는 $\theta$를 모수의 추정값 $\hat\theta$
여러 개의 표본 데이터가 있는 경우에 대해, 이 식을 likelihood function이라고 하고 보통은 자연로그를 취하여 아래와 같이 log-likelihood function $L(θ|x)$ 를 이용

$$
L(\theta| x) = \log P(x|\theta) = \sum_{i=1}^{n}\log P(x_i | \theta)
$$

$L(θ;x)$
- 가능도함수, likelihood
- 주어진 데이터 x에 대해, 모수(parameter) $θ$를 변수로 둔 함수
  데이터가 주어져있는 상황에서, $θ$를 변형시킴에 따라 값이 바뀌는 함수
- 모수 θ를 따르는 분포가 데이터 $x$를 관찰할 가능성
$P(x|θ)$
- 확률밀도(질량)함수
- $θ$가 주어져있을 때 $x$에 대한 함수
둘이 같은건 정의에 의해서인지??
- 가능도 $L(\theta;x)$의 경우 θ를 따르는 확률분포에서 $x$가 가지는 확률(밀도),
- $f(x|\theta)$는 사건 $θ$일 때 $x$일 확률(밀도)
  로 값이 동일하겠지만 보는 초점이 달라 가능도는 주어진 x에 대한 θ의 함수, 뒤의 확률분포는 주어진 $θ$에 $x$의 함수 정도의 차이가 있습니다.

만약 데이터 집합 X가 i.i.d일 경우(독립적으로 추출되었을 경우)
L(θ;x)은 각 P(x|θ)의 곱*(각 사건이 일어날 가능성의 곱)으로 나타낼 수 있다
-> 이것도 정의에 의해서인지?
---> 독립이기 때문에!!
양변에 log를 씌우면 log-likelihood는 log-확률분포들의 덧셈으로 표현 가능
-> 연산량을 O(n²)에서 O(n)으로 줄일 수 있음

중간정리

데이터 집합 X(x₁, x₂, ... x_n)가 i.i.d.일 경우에만
출처: https://m.blog.naver.com/sw4r/221972663841

최대사후확률 추정법(MAP, Maximum a Posteriori)

MLE의 단점(observation에 따라 값이 너무 민감하게 변함)을 해결하기 위해 사용

여기서 f(θ|x)는 P(θ|x)와 동일
θ가 주어지고, 그 θ에 대한 데이터들의 확률을 최대화하는 것이 아니라, 주어진 데이터에 대해 최대 확률을 가지는 θ를 찾는다
MAP를 계산하기 위해서는 f(x|θ), posteriori가 필요하지만 우리가 아는건 f(θ|x), likelihood뿐
-> Bayer's theorem 이용

Bayer's theorem

$$
P(θ \mid X)=\frac{P(X \mid θ) P(θ)}{P(X)}
$$

P(θ|X), posterior: 주어진 데이터에 대한 현상의 확률
data를 관찰했을 때, 이 parameter(θ)가 성립할 확률, 측정 이후의 확률이기 때문
P(X|θ), likelihood: observation
현재 주어진 parameter에서 이 data가 관찰될 확률, 사전확률이 없을 경우 분석하기 어렵다. 임의로 설정하는 경우도 있음.
P(θ), prior: 현상에 대한 사전정보
prior distribution, data에 대해 측정하기 전에 가정한 확률
P(X), evidence: data 전체의 분포

P(X)는 θ에 대한 식이 아니기 때문에 생략 가능
따라서 P(θ)를 알고있다면 MLE 대신 MAP를 사용하는 것이 가능
->** θ에 대한 사전정보(assumption)을사용해 결과를 향상시킬 수 있다**

출처: http://sanghyukchun.github.io/58/

저작자표시 비영리 변경금지

'개발 및 공부 > 네이버 부스트캠프 AI Tech 2기' 카테고리의 다른 글

VS Code에서 SSH로 서버 연결하는 방법 (0)	2021.09.01
Python으로 Slack에 알림 보내기 (0)	2021.09.01
Matplotlib에서 tick locator와 set tick의 차이 (0)	2021.08.25
What is best cross-validation method? (0)	2021.08.14
Weight initialize를 하는 이유? (0)	2021.08.14

현재글MLE(최대우도법)과 MAP(최대사후법) 정리

고독가(미식함). 개발 얘기 조금 첨가.

일기, 망원 맛집, 제주여행, MLOps, 여행, 바, 내일로, 부산 바, Pose Estimation, 성수 맛집, 신촌맛집, 신촌, 신촌 바, 오마카세, 건대, 건대맛집, til, 믹터스, 맛집, 부스트캠프,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

미식한 고독가

MLE(최대우도법)과 MAP(최대사후법) 정리

함수표기법( ; 와 | 의 차이)

모수와 표본

확률변수(Random Variable)

최대가능도 추정법(MLE, Maximum Likelihood Estimation)

중간정리

최대사후확률 추정법(MAP, Maximum a Posteriori)

Bayer's theorem

'개발 및 공부 > 네이버 부스트캠프 AI Tech 2기' 카테고리의 다른 글

'개발 및 공부/네이버 부스트캠프 AI Tech 2기'의 다른글

티스토리툴바

MLE(최대우도법)과 MAP(최대사후법) 정리

함수표기법( ; 와 | 의 차이)

모수와 표본

확률변수(Random Variable)

최대가능도 추정법(MLE, Maximum Likelihood Estimation)

중간정리

최대사후확률 추정법(MAP, Maximum a Posteriori)

Bayer's theorem

'개발 및 공부 > 네이버 부스트캠프 AI Tech 2기' 카테고리의 다른 글

'개발 및 공부/네이버 부스트캠프 AI Tech 2기'의 다른글

관련글

티스토리툴바