Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
blog:easy_clt_survey [2020/04/29 10:56] – [정규분포] prgram | blog:easy_clt_survey [2025/07/07 14:12] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 6: | Line 6: | ||
[[blog: | [[blog: | ||
- | 마케터나 기획자로서 많이 접하는 것이 설문조사 일 것이다. 빅데이터 시대에 무슨 설문조사냐, 라고 하겠지만, 빅데이터 시대에도 여전히 고객 대상 설문조사, | + | 마케터나 기획자로서 많이 접하는 것이 설문조사 일 것이다. 빅데이터 시대에 무슨 설문조사냐 라고 하겠지만 빅데이터 시대에도 여전히 고객 대상 설문조사, |
<< | << | ||
Line 43: | Line 43: | ||
> 모집단의 분포에 관계없이, | > 모집단의 분포에 관계없이, | ||
> ' | > ' | ||
- | > 표본의 | + | > 표본의 |
> 정규분포에 가까워진다 | > 정규분포에 가까워진다 | ||
는 이론이다. | 는 이론이다. | ||
Line 140: | Line 140: | ||
즉, 하위 범주로 쪼개서 해석을 하고 싶어하는 경우 전체에서 30개의 표본만 추출해서는 예측이 잘못될 가능성이 높아진다. | 즉, 하위 범주로 쪼개서 해석을 하고 싶어하는 경우 전체에서 30개의 표본만 추출해서는 예측이 잘못될 가능성이 높아진다. | ||
- | 또한 중요한 점은, 모든 샘플들은 **무작위random**로 추출되어야 한다는 것이다. 무작위라는 것은 모집단에서 각 고객들이 추출될 확률이 같아야 하고, 매번 추출하는 행위자체가 서로 영향을 주지 않는 독립이어야 한다는 것이다. 당연히 표본은 모집단을 대표해야 하므로 무작위로 추출되어야 가장 대표성을 지니게 된다. 중심극한정리가 주는 메시지는 ' | + | 또한 중요한 점은, 모든 샘플들은 **무작위random**로 추출되어야 한다는 것이다. 무작위라는 것은 모집단에서 각 고객들이 추출될 확률이 같아야 하고, 매번 추출하는 행위자체가 서로 영향을 주지 않는 독립이어야 한다는 것이다. 당연히 표본은 모집단을 대표해야 하므로 무작위로 추출되어야 가장 대표성을 지니게 된다. 중심극한정리가 주는 메시지는 ' |
Line 176: | Line 176: | ||
이 예시에서는 X가 0.3 (1.96*분산1.55), | 이 예시에서는 X가 0.3 (1.96*분산1.55), | ||
- | '' | + | > '' |
+ | 일 확률이 95% 가 되고, | ||
+ | 관점을 바꿔서 정리하면 | ||
+ | > 표본평균-X < '' | ||
+ | 이 된다. | ||
실제로 우리가 한번 조사해서 얻은 표본평균이 3.2이면, 표본평균에 3.2를 대입해서 (3.2-X ~ 3.2+X) 의 구간을 얻을 수가 있다. 우리가 한번 구한 표본평균에서 양쪽으로 X만큼 떨어져 있는 범위가 평균을 포함할 기대가 95%가 되는 것이다. 이것을 위에서 정한 **신뢰구간**으로 정하면 될 것 같고, 이번 조사에서 구한 표본평균과의 차이 X 를 **표본오차**라고 정하면 될 것이다. | 실제로 우리가 한번 조사해서 얻은 표본평균이 3.2이면, 표본평균에 3.2를 대입해서 (3.2-X ~ 3.2+X) 의 구간을 얻을 수가 있다. 우리가 한번 구한 표본평균에서 양쪽으로 X만큼 떨어져 있는 범위가 평균을 포함할 기대가 95%가 되는 것이다. 이것을 위에서 정한 **신뢰구간**으로 정하면 될 것 같고, 이번 조사에서 구한 표본평균과의 차이 X 를 **표본오차**라고 정하면 될 것이다. | ||
Line 197: | Line 201: | ||
===== Key Takeaways ===== | ===== Key Takeaways ===== | ||
지금까지 정말 간단한 설문조사에 대해서 알아보았다. 설문조사 뿐 아니라 많은 실험 등이 중심극한정리 덕분에 정규분포를 가정하고 그 바탕에서 복잡한 가설검정이나 추정치들을 구할 수 있게 된다. 학창시절에 배웠던 경험을 떠올리면서, | 지금까지 정말 간단한 설문조사에 대해서 알아보았다. 설문조사 뿐 아니라 많은 실험 등이 중심극한정리 덕분에 정규분포를 가정하고 그 바탕에서 복잡한 가설검정이나 추정치들을 구할 수 있게 된다. 학창시절에 배웠던 경험을 떠올리면서, | ||
+ | |||
+ | 이번에는 여론조사 예에서 그룹간 비교에 대해서 신뢰구간 간의 비교로 아주 간단히 살펴보았는데, | ||
* 빅데이터 시대라도 샘플링은 중요하다. | * 빅데이터 시대라도 샘플링은 중요하다. | ||
Line 208: | Line 214: | ||
===== Reference ===== | ===== Reference ===== | ||
+ | [[data_analysis: | ||
All of Statistics, Larry Wasserman, Springer, 2004 | All of Statistics, Larry Wasserman, Springer, 2004 | ||
Doing Data Science (데이터과학 입문), 레이철 슈트, 캐시 오닐, 윤영민 外역, 한빛미디어, | Doing Data Science (데이터과학 입문), 레이철 슈트, 캐시 오닐, 윤영민 外역, 한빛미디어, | ||
Line 213: | Line 220: | ||
마케팅 조사 실무 노트 1, 하지철, 이담북스, | 마케팅 조사 실무 노트 1, 하지철, 이담북스, | ||
[[https:// | [[https:// | ||
- | [[https:// | + | [[https:// |
- | 수학의 정석! | + | 고등학교 |
Line 261: | Line 268: | ||
3. 정규분포 모양 | 3. 정규분포 모양 | ||
+ | [[https:// | ||
<code python> | <code python> | ||
h = np.linspace(np.min(spl), | h = np.linspace(np.min(spl), | ||
Line 299: | Line 307: | ||
{{topic> | {{topic> | ||
- | {{tag> | + | {{tag> |
~~DISCUSSION~~ | ~~DISCUSSION~~ | ||