Convergence of RV and Testing

Convergence of Random Variable

The Weak Law of Large Numbers (WLLN)

If $ X_1,\ldots,X_n $ are iid, then $\bar{X_n} \rightarrow^P \mu $
pf) Chebyshev's ineq.
$ P(|\bar{X_n} - \mu| > \epsilon ) \leq {V(\bar{X_n})\over{\epsilon^2}} = \sigma^2/n\epsilon^2 $
tends to 0 as $ n\rightarrow \infty $
⇒$\bar{X_n}$ 의 분포가 n 이 커지면, $\mu$ 근처에 더 집중됨

시행을 많이 반복하면 경험적 확률도 이론적 확률에 가까워 진다.
표본평균은 표본 크기가 커짐에 따라 참값인 모평균에 가까워진다.
많은 실험을 해서 데이터를 많이 관측하는 것이 측정의 정밀도를 향상시킨다는 것(오차를 적게 함)을 보증.

The Central Limit Theorem (CLT)

$ X_1,\ldots,X_n $ iid with mean $\mu$, variance $\sigma^2$
$ Z_n \equiv {{\bar{X_n}-\mu}\over{\sqrt{V(\bar{X_n})}}} = {\sqrt{n} (\bar{X_n}-\mu) }/\sigma \rightarrow^d Z $
$ Z ~ N(0,1) $
in other words
$ lim_{n\rightarrow\infty} P(Z_n \leq z) = \Phi(z) = \int^z_{-\infty} {1\over{\sqrt{2\pi}}} exp(-x^2/2) dx $

⇒ random variable 그 자체가 아닌, probablity statements 가 근사적으로 Normal distribution으로 표현.

$S_n^2 = {1\over{n-1}} \sum(X_i-\bar{X_n})^2 $ 으로 바꿔도..

상대적으로 임계치가 높은 t분포의 경우 p-value 를 요구되는 수준보다 낮추기가 힘들어, 가설 검증시 reject H0이 어려워진다. critical value를 낮추기 위해 데이터를 추가적으로 모아서 자유도를 높이는 방법이 있으며, 자유도가 30 이상으로 올라가면 정규분포와 매우 유사한 t분포가 형성된다. 따라서 t분포는 모집단의 분산을 알지못하고 자유도가 30이 안될 때 사용하는 확률분포다. 물론 자유도가 30이 넘어도 모집단의 분산을 알지못한다면 여전히 t분포를 사용하지만 요구되는 critical value는 정규분포와 동일하다 - «메이저리그 야구 통계학»

표본평균은 표본의 크기가 커짐에 따라 모평균과의 차이(우연 오차)가 정규분포에 가까워진다
표본평균과 실제 평균의 차이인 오차는 방향성을 갖지 않는 우연오차이지만, 표본이 커지면 0을 중심으로 한 정규분포에 가까워진다.

hypothesis testing

«All of Statistics»
power function of a test with rejection region R
$\beta(\theta) = P_\theta(X \in R) $

size of a test
$ \alpha = sup_{\theta \in \Theta_0} \beta(\theta) $

a test is said to have level $\alpha$ if its size is less than or equal to $\alpha$

desirable : highest power under H1, among all size $\alpha$ test. → most powerful

  • Warning: reject H0, statistically significant.
    • but, size of effect는 작을 수 있음 → not scientifically or practically significant.
    • CI가 $\theta_0$를 포함하지 않으면 reject H0 이지만, CI 내의 값들이 $\theta_0$와 가까울 수도 있고(not scientifically significant), 멀 수도 있음(scientifically significant)

p-value

for eavery $\alpha \in (0,1) $, we have a size $\alpha$ test with rejection region $R_\alpha$
p-value = $ inf = { \alpha: T(X^n) \in R_\alpha } $
: smallest level at which we can reject $H_0$
( $\alpha$ 값에 따라서, test가 H0을 reject 하는지 물어볼 수 있음.
이 때, 이 $\alpha$들 중에서 reject하는 가장 낮은 값이 p-value 임)

  • Warning : A large p-value is not strong evidence in favor of H0.
    • 1) H0 is true or 2)H0 is false but the test has low power
  • Warning : Do not confuse the p-value with $P(H_0|Data)$ (Bayesian..).
    • p-value is not the probability that the null hypothesis is true.

compute
size $\alpha$ test가, reject H0 iff $T(X^n) \geq c_\alpha$ 이면,
p-value = $ sup_{\theta \in \Theta_0} P_\theta( T(X^n) \geq T(x^n) ) $, $x^n$ 은 $X^n$의 관측값
: probability(under H0) of observing a value of the test statistic the same as or more extreme than what was actually observed.

H0이 True일 때, p-value 는 Unif(0,1) 에서 random draw와 같음.
H1이 True일 때, p-value의 distribution은 0에 가깝게 concentrate할 것.

【참고】 미국통계학회의 6대원칙
마침내 미국통계학회가 「통계적 유의성과 P값에 대한 성명서」을 발표하고 ‘P-값의 적절한 사용과 해석에 관한 6대 원칙’을 공개했다.
1. P-값은 '데이터가 특정 통계 모형과 얼마나 상반되는지'를 나타낼 수 있다.
2. P-값은 '연구 가설이 참일 확률'이나, '데이터가 무작위적인 우연만으로 생성된 확률'의 척도가 아니다.
3. 과학적 결론이나 사업이나 정책적 결정이 'P-값이 특정 문턱값을 넘어서는지'에 의해서만 내려져서는 안 된다.
4. 적절한 추론을 위해 충분한 보고와 투명성이 필요하다.
5. P-값이나 통계적 유의성은 '효과의 크기'나 '결과의 중요성'의 척도가 아니다.
6. P-값 그 자체만으로는 어떤 모형이나 가설에 관한 증거를 판단하는 좋은 척도가 될 수 없다.
※ 출처: http://www.amstat.org/newsroom/pressreleases/P-ValueStatement.pdf
출처: [BRIC Bio통신원] [바이오토픽] 미국 통계학회, P값의 오용(誤用)을 경고하는 성명서 발표 ( https://www.ibric.org/myboard/read.php?Board=news&id=270293

Confidence Sets

«All of Statistics»
$ P_\theta (\theta \in C_n) \geq 1 - \alpha $
Cn : interval or Set

  • Warning : not a probability statement about $\theta$, since $\theta $ is a fixed quantity, not a random variable.
    • 1. if i repeat the experiment over and over
    • 2. there is no need to introduce the idea of repeating the same experiment.
    • on day 1, exp 1 for $\theta_1$, on day 2, exp2 for $\theta_2$, …, 95% of your intervals will trap the true parameter value $\theta_1, \theta_2, \ldots$

«Trustworthy online controlle dexperiment»
A common miskate is to took at the confidence intervals separatfor the Control and Treatment,

  • and assume that if they overlap, the Treatment effect is not statistically different.
  • The opposite, however, is true: if do not overlap, then Treatment effect is statistically significant.
Enter your comment:
U A S M᠎ R