SonJJU

  • 전에는 mle와 같은 방법으로 $\hat{\theta}$를 추정하였다.
  • 하지만 이 추정값이 실제 parameter와 완전히 같을 확률은 거의 없다.
  • 그렇다면 이 추정치의 에러는 어떻게 추정할까?
  • 이 에러의 추정치를 신뢰 구간이라고 한다.

Def

$X_1,...X_n$이 X의 샘플일 때, $L=L(X_1,...,X_n),~U=U(X_1,...,X_n),~0<\alpha <1$이 있다고 하자. 그렇다면 (L, U)를 $(1-\alpha)100%$ 신뢰구간 이라고 한다. 여기서 $1-\alpha$를 confidence coefficient라고 한다.

정규 분포에서의 신뢰구간

$X_1,...,X_n$이 $N(\mu, \sigma ^2)$의 샘플이라고 하자. 그렇다면 $\bar{X}, S^2$을 표본평균, 표본분산 이라고 한다. 전에 mle를 통해 $\bar{X}, \frac{n-1}{n}S^2$이 각각 $\mu, \sigma$의 mle임을 알았다. 그렇다면 새로운 확률 변수 $T=(\bar{X} - \mu)/(S/ \sqrt{n})$은 자유도가 n-1인 t 분포를 따른다. 이제 $0< \alpha <1$에서 $t_{\alpha /2, n-1}$를 t분포에서 $\alpha /2$의 상한값이라고 하자. 즉, $\alpha /2 = P(T>t_{\alpha /2, n-1})$이다. 그렇하면 $$1-\alpha = P(-t_{\alpha /2, n-1}<T<t_{\alpha /2, n-1})$$ $$= P(-t_{\alpha /2, n-1}<\frac{\bar{X}-\mu}{S/ \sqrt{n}}<t_{\alpha /2, n-1})$$ $$=P(\bar{X}-t_{\alpha /2, n-1} \frac{S}{\sqrt{n}})< \mu< P(\bar{X}+t_{\alpha /2, n-1} \frac{S}{\sqrt{n}})$$ 따라서 $\mu$의 신뢰구간은 $(\bar{x}-t_{\alpha /2, n-1}s/ \sqrt{n},~\bar{x}+t_{\alpha /2, n-1}s/ \sqrt{n}$ 이다. 이것을 t-구간이라고 한다. 

표본이 많은 경우 t 값 대신 z 값을 사용한다.

$(\bar{x} - z_{\alpha/2} s/ sqrt{n},\bar{x} + z_{\alpha/2} s/ sqrt{n})$ 이다.

  • 이 신뢰구간은 샘플이 정규 분포에서 뽑아진 샘플이라고 가정하였지만, 샘플이 정규 분포에서 뽑아진 것이 아니더라도 꽤 정확하다. 그 이유는 표본이 많을수록 T-분포는 표준 정규분포에 근사하기 때문이다. 이것을 Central limit theorem(CLT)라고 한다.
  • 대부분의 경우, 우리는 샘플이 어느 분포에서 뽑아져왔는지 알지 못한다. 이럴 경우 우리는 t-interval을 사용한다.왜냐면 t-분포는 표준 정규분포보다 좀 더 넓기 때문에 좀 더 많은 가능성을 포함시키기 때문이다.
  • $s/ \sqrt{n}$을 표준오차, standard error이라고 한다.

t-분포

표준 정규분포


  • 만일 모분산 $\sigma ^2$이 알려져 있다면 위의 식에서 s 대신 $\sigma$를 사용한다.

또한 X가 Bernoulli 확률 변수이고 성공 확률이 p라면 $\hat{p} = n^{-1} \sum^{n}_{i=1} X_i,~Var{\hat{p}} = p(1-p)/n$이므로 다음의 식을 얻을 수 있다. $$(\hat{p} - z_{\alpha /2} \sqrt{\hat{p}(1-\hat{p} /n},~\hat{p} + z_{\alpha /2} \sqrt{\hat{p}(1-\hat{p} /n})$$

  • 여기선 $\sqrt{ \hat{p} (1-\hat{p})/n}$을 표준오차라 한다.

두 평균 차의 신뢰구간

  • 많은 경우 한가지 분포의 신뢰구간을 생각하기 보단 두가지 분포의 차이를 볼 것이다.
  • A집단의 키와 B집단의 키를 비교하는 것이 그 예이다.
  • 이 때는 $\hat{\Delta}=\bar{X}-\bar{Y}$라고 정의하여 신뢰 구간을 구한다.
  • 여기서 $\hat{\Delta}$는 unbiased 추정량이고 두 샘플은 독립적이므로 $Var(\hat{\Delta}) = \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}$이다.
이제 확률 변수 $Z = \frac{\hat{\Delta} - \Delta}{\sqrt{ \frac{S_1^2}{n_1}+ \frac{S_2^2}{n_2}}}$를 정의하고 맨 위의 과정을 따르면 다음과 같은 신뢰 구간을 구할 수 있다.
$$( (\bar{x} - \bar{y}) - z_{\alpha /2} \sqrt{ \frac{s_1^2}{n_1}+ \frac{s_2^2}{n_2} }, (\bar{x} - \bar{y}) + z_{\alpha /2} \sqrt{ \frac{s_1^2}{n_1}+ \frac{s_2^2}{n_2} }  )$$

만일 두 분포의 분산이 비슷하거나 같다고 가정할 수 있다면 pooled estimator(합병추정치)를 사용한다. 테스트 비용이 있는 실험에서 적은 테스트 만으로 실험을 할때 사용하기도 한다. pooled estimator는 다음과 같다.

$S^2_p = \frac{(n_1-1)S^2_1 + (n_2 -1)S^2_2}{n_1+n_2-2}$

  • pooled estimator는 $S^2_1, S^2_2$의 weighted average인 것을 알 수 있다. 이 경우 신뢰구간은 다음과 같다.
$$( (\bar{x} - \bar{y}) - t_{\alpha /2,n-2}s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}},(\bar{x} - \bar{y}) +t_{\alpha /2,n-2}s_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}})$$


저작자 표시 비영리 변경 금지
신고
DISQUS 로드 중…
댓글 로드 중…

블로그 정보

SonJJU - 손주형

Data Scientist, SonJJU

최근에 게시된 글

티스토리 툴바