Differences

This shows you the differences between two versions of the page.

--- blog:easy_clt_survey [2020/04/29 10:56] – [정규분포] prgram
+++ blog:easy_clt_survey [2025/07/07 14:12] (current) – external edit 127.0.0.1
@@ Line 6: / Line 6: @@
 [[blog:easy_nn]]
-마케터나 기획자로서 많이 접하는 것이 설문조사 일 것이다. 빅데이터 시대에 무슨 설문조사냐, 라고 하겠지만, 빅데이터 시대에도 여전히 고객 대상 설문조사, 샘플링은 필요하다. 마케팅 KPI로 많이 활용되는 [[http://www.ciokorea.com/news/38953|NPS(Net Promoter Score,순 추천 고객 지수)]]는 물론이고, 데이터가 존재하지 않을 때 방향성을 잡기 위한 용도로, A/B 테스트에도 설문조사의 모집단과 표본추출의 개념이 포함되어 있다.
+마케터나 기획자로서 많이 접하는 것이 설문조사 일 것이다. 빅데이터 시대에 무슨 설문조사냐 라고 하겠지만 빅데이터 시대에도 여전히 고객 대상 설문조사, 샘플링은 필요하다. 마케팅 KPI로 많이 활용되는 [[http://www.ciokorea.com/news/38953|NPS(Net Promoter Score,순 추천 고객 지수)]]는 물론이고, 데이터가 존재하지 않을 때 방향성을 잡기 위한 용도로, A/B 테스트에도 설문조사의 모집단과 표본추출의 개념이 포함되어 있다.
 <<데이터과학 입문>> 에서는 빅데이터 시대의 모집단과 표본에 대해서 아래와 같이 서술하고 있다.
@@ Line 43: / Line 43: @@
 > 모집단의 분포에 관계없이,
 > '표본의 평균'의 본포는
-> 표본의 수가 증가하면
+> 표본의 크기가 충분히 크면
 > 정규분포에 가까워진다
 는 이론이다.
@@ Line 140: / Line 140: @@
 즉, 하위 범주로 쪼개서 해석을 하고 싶어하는 경우 전체에서 30개의 표본만 추출해서는 예측이 잘못될 가능성이 높아진다.
-또한 중요한 점은, 모든 샘플들은 **무작위random**로 추출되어야 한다는 것이다. 무작위라는 것은 모집단에서 각 고객들이 추출될 확률이 같아야 하고, 매번 추출하는 행위자체가 서로 영향을 주지 않는 독립이어야 한다는 것이다. 당연히 표본은 모집단을 대표해야 하므로 무작위로 추출되어야 가장 대표성을 지니게 된다. 중심극한정리가 주는 메시지는 '30명이면 무조건 된다' 라는 뜻이 아니라, '많은 표본보다 제대로 뽑힌 30명이 낫다'라는 것임을 잊지 말아야 한다. ((Neyman에 따르면 샘플링의 정확성을 극적으로 향상시키는 방법으로 샘플의 크기를 늘리는 것이 아니라 무작위로 샘플을 추출하는 것임을 밝혀냈다.[[https://en.wikipedia.org/wiki/Jerzy_Neyman|wikipedia]]))
+또한 중요한 점은, 모든 샘플들은 **무작위random**로 추출되어야 한다는 것이다. 무작위라는 것은 모집단에서 각 고객들이 추출될 확률이 같아야 하고, 매번 추출하는 행위자체가 서로 영향을 주지 않는 독립이어야 한다는 것이다. 당연히 표본은 모집단을 대표해야 하므로 무작위로 추출되어야 가장 대표성을 지니게 된다. 중심극한정리가 주는 메시지는 '30명이면 무조건 된다' 라는 뜻이 아니라, '많은 표본보다 제대로 뽑힌 30명이 낫다'라는 것임을 잊지 말아야 한다. ((Neyman에 따르면 샘플링의 정확성을 극적으로 향상시키는 방법은 샘플의 크기를 늘리는 것이 아니라 무작위로 샘플을 추출하는 것이다.[[https://en.wikipedia.org/wiki/Jerzy_Neyman|wikipedia]]))
@@ Line 176: / Line 176: @@
 이 예시에서는 X가 0.3 (1.96*분산1.55), 즉 2.7과 3.3 사이에서 표본평균이 나올 확률이 95%이다. 우리가 한번 조사했을때 표본평균이 2.7~3.3 사이로 나올 확률이 95%라는 것이다.
-''평균''-X < 표본평균 < ''평균''+X 일 확률이 95% 가 되고, 관점을 바꿔서 정리하면 표본평균-X < ''평균'' < 표본평균+X 의 확률이 95%가 된다.
+> ''평균''-X < 표본평균 < ''평균''+X
+일 확률이 95% 가 되고,
+관점을 바꿔서 정리하면
+> 표본평균-X < ''평균'' < 표본평균+X
+이 된다.
 실제로 우리가 한번 조사해서 얻은 표본평균이 3.2이면, 표본평균에 3.2를 대입해서 (3.2-X ~ 3.2+X) 의 구간을 얻을 수가 있다. 우리가 한번 구한 표본평균에서 양쪽으로 X만큼 떨어져 있는 범위가 평균을 포함할 기대가 95%가 되는 것이다. 이것을 위에서 정한 **신뢰구간**으로 정하면 될 것 같고, 이번 조사에서 구한 표본평균과의 차이 X 를 **표본오차**라고 정하면 될 것이다.
@@ Line 197: / Line 201: @@
 ===== Key Takeaways =====
 지금까지 정말 간단한 설문조사에 대해서 알아보았다. 설문조사 뿐 아니라 많은 실험 등이 중심극한정리 덕분에 정규분포를 가정하고 그 바탕에서 복잡한 가설검정이나 추정치들을 구할 수 있게 된다. 학창시절에 배웠던 경험을 떠올리면서, 현대의 많은 과학기술과 지금의 인공지능 기술의 밑바탕이 된 기본적인 이론에 대해서 잠시 생각해 보는 시간이 되었으면 좋겠다.
+이번에는 여론조사 예에서 그룹간 비교에 대해서 신뢰구간 간의 비교로 아주 간단히 살펴보았는데, 기회가 되면 A/B 테스트와 관련지어 생각해 보는 시간을 갖는 것도 좋을 것 같다.
   * 빅데이터 시대라도 샘플링은 중요하다.
@@ Line 208: / Line 214: @@
 ===== Reference =====
+[[data_analysis:convergence_testing]]
 All of Statistics, Larry Wasserman, Springer, 2004
 Doing Data Science (데이터과학 입문), 레이철 슈트, 캐시 오닐, 윤영민 外역, 한빛미디어, 2014
@@ Line 213: / Line 220: @@
 마케팅 조사 실무 노트 1, 하지철, 이담북스, 2010
 [[https://bskyvision.com/489|수식으로 구하는 신뢰구간]]
-[[https://www.researchgate.net/post/What_is_the_rationale_behind_the_magic_number_30_in_statistics|What_is_the_rationale_behind_the_magic_number_30_in_statistics]]
+[[https://www.researchgate.net/post/What_is_the_rationale_behind_the_magic_number_30_in_statistics|What is the rationale behind the magic number 30 in statistics]]
-수학의 정석!
+고등학교 수학의 정석!
@@ Line 261: / Line 268: @@
 . 정규분포 모양
+[[https://www.science-emergence.com/Articles/How-to-plot-a-normal-distribution-with-matplotlib-in-python-/|참고사이트]]
 <code python>
 h = np.linspace(np.min(spl), np.max(spl), 100)
@@ Line 299: / Line 307: @@
 {{topic>blog blogs -tag1 &desc&nocomment&nodesc&notags}}
-{{tag>blog survey 설문조사 중심극한정리 큰수의법칙 정규분포}}
+{{tag>blog survey 설문조사 중심극한정리 큰수의법칙 정규분포 쉽게설명}}
 ~~DISCUSSION~~