Differences
This shows you the differences between two versions of the page.
Both sides previous revision Previous revision Next revision | Previous revision | ||
data_analysis:data_mind [2018/12/06 04:40] – prgram | data_analysis:data_mind [2025/07/07 14:12] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 3: | Line 3: | ||
{{tag> | {{tag> | ||
+ | * [[https:// | ||
+ | * 우선, 위의 조치는 통계적인 논리로는 타당하다. 무슨 뜻이냐 하면, 확실히 뒤집한 양말을 신은 사람이 비행기 사고로 죽거나 다칠 가능성이 제대로 양말은 신은 사람이 비행기 사고로 죽거나 다칠 가능성보다는 현저히 낮다. 그렇기에 사고의 " | ||
+ | * 양말을 바꿔 신은 이가 사고나서 죽을(혹은 부상당할) 가능성은 남의 데이터인 것이다. | ||
+ | * " | ||
+ | * 데이터 분석보다 중요한 것이 데이터 자체이고 데이터 자체보다 중요한 것이 데이터가 내 것인지 남의 것인지를 아는 것. | ||
+ | * [[http:// | ||
+ | * 우리 모두 ‘raw 데이터’가 중요한 건 잘 알고 있다. 특히 많은 VC가 특정 비즈니스를 검토할 때, 실제 그 비즈니스보단, | ||
* 『분석 전문가가 말하는 빅데이터』 (김승범 외) | * 『분석 전문가가 말하는 빅데이터』 (김승범 외) | ||
* 빅데이터 분석도 지수(index)가 답이다 | * 빅데이터 분석도 지수(index)가 답이다 | ||
Line 22: | Line 29: | ||
* [[http:// | * [[http:// | ||
* 수영장 크기 기준은 각 레인의 길이 오차를 3cm 로 정하고 있습니다. 이는 수영선수가 천 분의 1초 동안 나아갈 수 있는 길이의 열 배가 넘습니다. | * 수영장 크기 기준은 각 레인의 길이 오차를 3cm 로 정하고 있습니다. 이는 수영선수가 천 분의 1초 동안 나아갈 수 있는 길이의 열 배가 넘습니다. | ||
- | * [[http:// | + | * [[http:// |
- | + | | |
- | - 사이버 보안강화, | + | * 그러나..새로운 기능을 추가하였을 때 클릭이 줄어들었다면 그 기능을 사람들이 싫어한다고 결론을 내릴 수는 없다. 새로운 기능에 대해 사람들이 모르고 있을 수도 있고, 기능을 사용하는 버튼의 모양이 마음에 안 들 수도 있으며, 시대를 앞선 기능이어서 몇 개월 후에야 사람들이 좋아할 기능일 수도 있다. … 빅데이터 처리가 여러 오픈소스 프로젝트 등에 의해 쉬워질 수록, 앞으로 빅데이터 처리 기술 보다는 데이터를 활용하고 해석하는 능력이 더 중요해 질 것이다. |
- | + | * [[https:// | |
- | | + | * A: 우리 서비스에서 재방문자 비율을 가장 빨리 높일 수 있는 방법은 무엇일까요? |
- | * [[https:// | + | * 주요 지표가 재방문율인 서비스가 있다면, 어떤 목표를 보기 위해 ' |
- | * A: 우리 서비스에서 재방문자 비율을 가장 빨리 높일 수 있는 방법은 무엇일까요? | + | * [[https:// |
- | * 주요 지표가 재방문율인 서비스가 있다면, 어떤 목표를 보기 위해 ' | + | * **빅데이터 전문가는 외부에서 영입하는 것이 아니라 내부에서 자생적으로 생성** |
- | * [[https:// | + | * 내부 혁신이 불가능한 기업과 오너 중심의 대기업은 데이터 분석가가 필요하지 않다. 다만 오너의 생각을 읽고서 적당하게 마사지 된 데이터를 보여줄 외부 데이터 분석 서비스 업체만 필요할 뿐이다. 국내에는 데이터 분석 서비스 업체 정도가 적당하다. |
- | * **빅데이터 전문가는 외부에서 영입하는 것이 아니라 내부에서 자생적으로 생성** | + | * 빅데이터나 머신러닝과 같은 지식화 인사이트는 절대 IT 기술이나 주변의 소프트웨어 솔루션으로 만들어지는 것이 아니다. 기업 내부에 축적된 지식을 기반 두고 사람을 기준으로 데이터가 만들어진다. 데이터 분석 전문가는 단지 그것의 가치를 판정할 수 있는 기준을 마련해줄 뿐이다. |
- | * 내부 혁신이 불가능한 기업과 오너 중심의 대기업은 데이터 분석가가 필요하지 않다. 다만 오너의 생각을 읽고서 적당하게 마사지 된 데이터를 보여줄 외부 데이터 분석 서비스 업체만 필요할 뿐이다. 국내에는 데이터 분석 서비스 업체 정도가 적당하다. | + | * [[https:// |
- | * 빅데이터나 머신러닝과 같은 지식화 인사이트는 절대 IT 기술이나 주변의 소프트웨어 솔루션으로 만들어지는 것이 아니다. 기업 내부에 축적된 지식을 기반 두고 사람을 기준으로 데이터가 만들어진다. 데이터 분석 전문가는 단지 그것의 가치를 판정할 수 있는 기준을 마련해줄 뿐이다. | + | * 잘된 분석은 누구도 알 지 못했지만 실제로는 느리지만 크게 벌어지는 현상을 설명해 줍니다. |
- | * [[https:// | + | * **인사이트에 대한 강박을 버려야 합니다. ** 가장 많이 드러나는 분석의 그릇된 현상이기도 합니다. 데이터와 데이터 사이에 무슨 연관성이 있다거나 데이터의 시계열 추이 상 지금이 특별히 어떤 상태임을 뭐라도, 한 줄 이라도 써서 보고하거나 제공합니다. 만약 분석을 했는데 뚜렷한 인사이트가 발견되지 않으면 ' |
- | * 잘된 분석은 누구도 알 지 못했지만 실제로는 느리지만 크게 벌어지는 현상을 설명해 줍니다. | + | * 가장 모수가 많고 사업에 직접적인 영향을 미치는 변수에서 답을 못 찾을 때 다른 데이터를 찾기 보다는 이미 큰 인사이트가 없는 데이터를 더 세부적으로 쪼갭니다. 변수를 세분화 해서 뭔가라도 할 말을 찾는 것이죠. 결국 나누고 나누다 보면 일정 성향을 띠는 뭐라도 나올 것입니다. 하지만 이런 것은 실제 사업에 쓸모없을 때가 많습니다. 분석을 위한 분석으로 흐를 가능성이 높습니다. |
- | * **인사이트에 대한 강박을 버려야 합니다. ** 가장 많이 드러나는 분석의 그릇된 현상이기도 합니다. 데이터와 데이터 사이에 무슨 연관성이 있다거나 데이터의 시계열 추이 상 지금이 특별히 어떤 상태임을 뭐라도, 한 줄 이라도 써서 보고하거나 제공합니다. 만약 분석을 했는데 뚜렷한 인사이트가 발견되지 않으면 ' | + | * 실제 분석가는 분석의 최종 결과를 스토리로 만들 수 있어야 합니다. 사업에 쓰이려면 이게 어떤 의미를 지니고 이런 일을 하면 이런 효과가 고객이나 우리 내부 프로세스에 생긴다고 말을 할 수 있어야 합니다. |
- | * 가장 모수가 많고 사업에 직접적인 영향을 미치는 변수에서 답을 못 찾을 때 다른 데이터를 찾기 보다는 이미 큰 인사이트가 없는 데이터를 더 세부적으로 쪼갭니다. 변수를 세분화 해서 뭔가라도 할 말을 찾는 것이죠. 결국 나누고 나누다 보면 일정 성향을 띠는 뭐라도 나올 것입니다. 하지만 이런 것은 실제 사업에 쓸모없을 때가 많습니다. 분석을 위한 분석으로 흐를 가능성이 높습니다. | + | * [[http:// |
- | * 실제 분석가는 분석의 최종 결과를 스토리로 만들 수 있어야 합니다. 사업에 쓰이려면 이게 어떤 의미를 지니고 이런 일을 하면 이런 효과가 고객이나 우리 내부 프로세스에 생긴다고 말을 할 수 있어야 합니다. | + | * 구글은 이 연구를 위해 미국의 유능한 안과 의사 54명을 동원, 12만장 이상의 안저 영상 학습 데이터셋을 구축했다. 인간을 대체 혹은 능가하는 기술을 만들기 위해 가장 필요한 것은 인간이 만든 질 좋은 데이터란 뜻이다. |
- | * [[http:// | + | * 특정 분야를 제외하면 한국에 눈에 띄는 인공지능 기술 기반 스타트업이 없었던 것도 이 같은 배경 때문이다. |
- | * 구글은 이 연구를 위해 미국의 유능한 안과 의사 54명을 동원, 12만장 이상의 안저 영상 학습 데이터셋을 구축했다. 인간을 대체 혹은 능가하는 기술을 만들기 위해 가장 필요한 것은 인간이 만든 질 좋은 데이터란 뜻이다. | + | * 이러한 상황에도 불구하고 눈에 띄는 인식 서비스를 제공하는 스타트업들이 있다. 촬영한 영수증을 자동으로 인식해 기업의 가계부를 써주는 자비스(Jobis), |
- | * 특정 분야를 제외하면 한국에 눈에 띄는 인공지능 기술 기반 스타트업이 없었던 것도 이 같은 배경 때문이다. | + | * AI 기술 적용을 고민하는 회사는 먼저 자문해야 한다. 멋져 보이는 알파고가 되기 위해 놀림 받는 알바고가 될 준비가 되어 있는지. |
- | * 이러한 상황에도 불구하고 눈에 띄는 인식 서비스를 제공하는 스타트업들이 있다. 촬영한 영수증을 자동으로 인식해 기업의 가계부를 써주는 자비스(Jobis), | + | * [[http:// |
- | * AI 기술 적용을 고민하는 회사는 먼저 자문해야 한다. 멋져 보이는 알파고가 되기 위해 놀림 받는 알바고가 될 준비가 되어 있는지. | + | * 봇은 망한다: 사람들은 여전히 대부분의 일을 위해 다른 사람들과 상호 작용하기를 좋아합니다. 그리고 나는 많은 챗봇들이 사회적 큐레이팅없이 개인화를 시도한 비(非)사회적 미디어 플랫폼과 같은 미래를 맞이할 것이라고 생각합니다. 대화식 인터페이스는 다른 시각적 솔루션에 비해 작업을 수행하는 데 매우 비효율적입니다. |
- | * [[http:// | + | * 딥러닝은 공산품이 된다 |
- | * 봇은 망한다: 사람들은 여전히 대부분의 일을 위해 다른 사람들과 상호 작용하기를 좋아합니다. 그리고 나는 많은 챗봇들이 사회적 큐레이팅없이 개인화를 시도한 비(非)사회적 미디어 플랫폼과 같은 미래를 맞이할 것이라고 생각합니다. 대화식 인터페이스는 다른 시각적 솔루션에 비해 작업을 수행하는 데 매우 비효율적입니다. | + | * MLaaS(서비스로서의 머신러닝)는 두 번 죽을 것이다: 뭐 좀 할줄 아는 사람은 그냥 오픈소스를 씁니다. 그리고 못하는 사람들은 API를 아무리 갖다 줘도 동작시키는 방법을 모릅니다. |
- | * 딥러닝은 공산품이 된다 | + | * 풀스택 버티컬 AI 스타트업들은 잘 될것이다: |
- | * MLaaS(서비스로서의 머신러닝)는 두 번 죽을 것이다: 뭐 좀 할줄 아는 사람은 그냥 오픈소스를 씁니다. 그리고 못하는 사람들은 API를 아무리 갖다 줘도 동작시키는 방법을 모릅니다. | + | * [[http:// |
- | * 풀스택 버티컬 AI 스타트업들은 잘 될것이다: | + | * 결국 빅데이터나 딥러닝이나 문제 해결의 수단이다. 이미 많은 데이터와 충분한 컴퓨팅 파워가 있으며 학습 성능이 해석 가능성보다 중요한 경우 딥러닝은 고려해볼 만한 옵션이다. 하지만, 런타임에서의 성능 및 예측 결과를 설명할 수 있어야 하는 경우 딥러닝은 최선의 선택은 아니다. 또한 기계학습은 일단 만들어 놓으면 끝이 아니라 [[http:// |
- | * [[http:// | + | * [[http:// |
- | * 결국 빅데이터나 딥러닝이나 문제 해결의 수단이다. 이미 많은 데이터와 충분한 컴퓨팅 파워가 있으며 학습 성능이 해석 가능성보다 중요한 경우 딥러닝은 고려해볼 만한 옵션이다. 하지만, 런타임에서의 성능 및 예측 결과를 설명할 수 있어야 하는 경우 딥러닝은 최선의 선택은 아니다. 또한 기계학습은 일단 만들어 놓으면 끝이 아니라 [[http:// | + | * 손가락(R, |
- | * [[http:// | + | * 도구에는 이 분야의 선구자들의 노하우가 숨겨져 있기도 하다. 예를 들어 Tidy Data로 알려진 `dplyr`, `ggplot2`, `reshape2` 등의 패키지 셋은 정확하고 간단하게 데이터를 전처리하고 시각화하는 어떤 문법이 존재할 수 있음을 알려주며, |
- | * 손가락(R, | + | * 개인적으로 트위터 분석 등 대부분의 SNS 텍스트, 네트워크 분석을 신뢰하지 않는 이유중에 하나는 ‘대조군’이 대부분 누락되어 있어 과학이라 말하기 어렵기 때문이다.대조군을 설정하기 너무 어려운가? |
- | * 도구에는 이 분야의 선구자들의 노하우가 숨겨져 있기도 하다. 예를 들어 Tidy Data로 알려진 `dplyr`, `ggplot2`, `reshape2` 등의 패키지 셋은 정확하고 간단하게 데이터를 전처리하고 시각화하는 어떤 문법이 존재할 수 있음을 알려주며, | + | * 고객분석의 경우 클러스터링이 교과서 처럼 될 수 있다는 환상을 버리는게 중요하고, |
- | * 개인적으로 트위터 분석 등 대부분의 SNS 텍스트, 네트워크 분석을 신뢰하지 않는 이유중에 하나는 ‘대조군’이 대부분 누락되어 있어 과학이라 말하기 어렵기 때문이다.대조군을 설정하기 너무 어려운가? | + | * 분석가 본인이 보기에 실패한 분석 결과라도 애정있게 정리하고 공유하면 여러 동료들의 예리한 눈으로 부족한 부분, 실수한 부분, 보완한 부분들을 찾을 가능성이 높다. 그럼 다시 그 가설은 살아날 기회를 얻게 된다.자신의 생각을 모두 보여준다는 것에 대해 부끄럽게 생각하지 말고, 공유하고 논의하라! |
- | * 고객분석의 경우 클러스터링이 교과서 처럼 될 수 있다는 환상을 버리는게 중요하고, | + | * 단적인 예로 outlier detection이라든지, |
- | * 분석가 본인이 보기에 실패한 분석 결과라도 애정있게 정리하고 공유하면 여러 동료들의 예리한 눈으로 부족한 부분, 실수한 부분, 보완한 부분들을 찾을 가능성이 높다. 그럼 다시 그 가설은 살아날 기회를 얻게 된다.자신의 생각을 모두 보여준다는 것에 대해 부끄럽게 생각하지 말고, 공유하고 논의하라! | + | * 데이터 분석 과정이나 결과를 주변과 자주 빠르게 공유하는 행위는 올바른 분석을 위해서 매우 필요한 행동이다. |
- | * 단적인 예로 outlier detection이라든지, | + | * 많은 경우 EDA의 종말은 ‘이미 알고 있는 사실을 데이터로 확인한 결과’가 되는 경우가 많다. 이런 경우 의뢰인에게 `인지적 편안함`만 주고 분석은 끝나게 된다. 이는 대부분 초보 분석가 분들이 가지는 많은 고민중에 하나인데, |
- | * 데이터 분석 과정이나 결과를 주변과 자주 빠르게 공유하는 행위는 올바른 분석을 위해서 매우 필요한 행동이다. | + | * 필자가 매년초에 주기적으로 하는 일중에 하나는 기초통계학 책을 탐독하는것이다. 신기하게도 매년 그 의미의 깊이가 다르게 느껴지고 문구 하나하나가 이전에 탐독을 했을때와는 다르게 느껴지는 것을 경험한다. |
- | * 많은 경우 EDA의 종말은 ‘이미 알고 있는 사실을 데이터로 확인한 결과’가 되는 경우가 많다. 이런 경우 의뢰인에게 `인지적 편안함`만 주고 분석은 끝나게 된다. 이는 대부분 초보 분석가 분들이 가지는 많은 고민중에 하나인데, | + | * 대부분 어떠한 전공 커리큘럼을 따라서 공부하는것에 매우 큰 부담을 안고 있다. 이는 이전에 자신이 시간 투자하고 공부한 자신의 전공의 프레임에 빠져 있기 때문이라 생각한다. 능력있는 분석가가 되기 위해서는 사실 거의 체내화 되어 있어야 되는 개념(학문)들이 다수 존재하는데, |
- | * 필자가 매년초에 주기적으로 하는 일중에 하나는 기초통계학 책을 탐독하는것이다. 신기하게도 매년 그 의미의 깊이가 다르게 느껴지고 문구 하나하나가 이전에 탐독을 했을때와는 다르게 느껴지는 것을 경험한다. | + | * [[https:// |
- | * 대부분 어떠한 전공 커리큘럼을 따라서 공부하는것에 매우 큰 부담을 안고 있다. 이는 이전에 자신이 시간 투자하고 공부한 자신의 전공의 프레임에 빠져 있기 때문이라 생각한다. 능력있는 분석가가 되기 위해서는 사실 거의 체내화 되어 있어야 되는 개념(학문)들이 다수 존재하는데, | + | * 빅 데이터를 기반으로 하는 많은 도구들이 쉽게 조작이 가능할 것이다. 심지어 빅 데이터의 대표적인 성공사례인 구글의 뛰어난 검색엔진 조차도 인위적인 검색결과를 시도하는 교활한 기술, 구글폭격(Google bombing)과 스팸덱싱(spamdexing)에는 속수무책으로 당한다. |
- | * [[https:// | + | * 대부분의 빅 데이터가 웹으로부터 온다는 사실에 기인하는, |
- | * 빅 데이터를 기반으로 하는 많은 도구들이 쉽게 조작이 가능할 것이다. 심지어 빅 데이터의 대표적인 성공사례인 구글의 뛰어난 검색엔진 조차도 인위적인 검색결과를 시도하는 교활한 기술, 구글폭격(Google bombing)과 스팸덱싱(spamdexing)에는 속수무책으로 당한다. | + | * [[https:// |
- | * 대부분의 빅 데이터가 웹으로부터 온다는 사실에 기인하는, | + | * 입사 후 1년 내에 관두는 경우가 몇 가지 있습니다. 먼저 집이 먼 사람입니다. Early Bird도 소용 없습니다. 신입 사원을 길들이기 위해 집에 늦게 보내기 때문입니다. 두 번째는 지하철과 버스를 세 번 네 번 갈아 타고 출근해야 하는 사람입니다. 세 번째는 회사에서는 왕따지만 5개 이상의 Social Media에 가입되어 있거나, LinkedIn에 영어 이력서를 올리는 사람입니다. HR은 이 같은 정보를 기반으로 지원자들을 거릅니다. 동네 애들만 뽑는 이상한 짓을 하고, 자신의 행동을 합리화 합니다. 그러나 회장님의 Level은 다릅니다. 집이 먼 구성원들을 위해 버스를 사고 기숙사를 짓습니다. 그래서 Decision Maker가 아니면 데이터를 주지 않습니다.데이터는 실마리 < |
- | * [[https:// | + | * [[http:// |
- | * 입사 후 1년 내에 관두는 경우가 몇 가지 있습니다. 먼저 집이 먼 사람입니다. Early Bird도 소용 없습니다. 신입 사원을 길들이기 위해 집에 늦게 보내기 때문입니다. 두 번째는 지하철과 버스를 세 번 네 번 갈아 타고 출근해야 하는 사람입니다. 세 번째는 회사에서는 왕따지만 5개 이상의 Social Media에 가입되어 있거나, LinkedIn에 영어 이력서를 올리는 사람입니다. HR은 이 같은 정보를 기반으로 지원자들을 거릅니다. 동네 애들만 뽑는 이상한 짓을 하고, 자신의 행동을 합리화 합니다. 그러나 회장님의 Level은 다릅니다. 집이 먼 구성원들을 위해 버스를 사고 기숙사를 짓습니다. 그래서 Decision Maker가 아니면 데이터를 주지 않습니다.데이터는 실마리 < | + | * 국내에서 가장 인기있는 청바지 브랜드는 무엇일까. 하지만 국내에서 가장 높은 점유율을 차지하는 청바지 브랜드는 ‘뱅뱅' |
- | * [[http:// | + | * 보통 기업은 1년간 계획을 세우고 매달 필요한 것을 실행한다. 이 과정에서 끊임없는 보고가 일어난다. 마치 가을 수확을 위해 한 해 동안 농사를 짓는 것과 비슷한 모습이다. 데이터과학은 이러한 방식으로는 진행될 수 없다. 원하는 결과를 얻기 위해 계획을 하고, 시도하고, |
- | * 국내에서 가장 인기있는 청바지 브랜드는 무엇일까. 하지만 국내에서 가장 높은 점유율을 차지하는 청바지 브랜드는 ‘뱅뱅' | + | * 물류 전문기업 UPS가 대표 사례다. UPS는 1990년대부터 많은 데이터를 수집했다. 이들이 모은 데이터는 엔진 센서, 차량 이동경로, |
- | * 보통 기업은 1년간 계획을 세우고 매달 필요한 것을 실행한다. 이 과정에서 끊임없는 보고가 일어난다. 마치 가을 수확을 위해 한 해 동안 농사를 짓는 것과 비슷한 모습이다. 데이터과학은 이러한 방식으로는 진행될 수 없다. 원하는 결과를 얻기 위해 계획을 하고, 시도하고, | + | * [[https:// |
- | * 물류 전문기업 UPS가 대표 사례다. UPS는 1990년대부터 많은 데이터를 수집했다. 이들이 모은 데이터는 엔진 센서, 차량 이동경로, | + | * Data engineering 과 data science 사이에서 가장 모호한 경계에 있는 부분이 데이터 추출(extraction)인데 이 경계선 상에서 대표적으로 활용되는 범용 도구가 SQL 이기도 하다. 이 사실 역시 SQL 의 중요성에 한 표를 던지게 된다. 여러가지 이유가 생각이 나지만 그래도 그 중 가장 강력하게 머리에 맴도는 것은, 데이터에서 관계를 뽑아낸다는 이 꽤나 막연할수도 있는 컨셉을 손으로 확실하게 익히게 해 주고 뇌 새김을 해 주는 것이 table 을 다루는 것이라는 점. (배열이나 리스트 구조와는 아무래도 약간 느낌이 다른?) SQL은 결국 table 에 액션을 취하는 언어이니 말이다. |
- | * [[https:// | + | * [[http:// |
- | * Data engineering 과 data science 사이에서 가장 모호한 경계에 있는 부분이 데이터 추출(extraction)인데 이 경계선 상에서 대표적으로 활용되는 범용 도구가 SQL 이기도 하다. 이 사실 역시 SQL 의 중요성에 한 표를 던지게 된다. 여러가지 이유가 생각이 나지만 그래도 그 중 가장 강력하게 머리에 맴도는 것은, 데이터에서 관계를 뽑아낸다는 이 꽤나 막연할수도 있는 컨셉을 손으로 확실하게 익히게 해 주고 뇌 새김을 해 주는 것이 table 을 다루는 것이라는 점. (배열이나 리스트 구조와는 아무래도 약간 느낌이 다른?) SQL은 결국 table 에 액션을 취하는 언어이니 말이다. | + | * 쿠폰남발: |
- | * [[http:// | + | * 검색광고오류: |
- | * 쿠폰남발: | + | * [[http:// |
- | * 검색광고오류: | + | * 아시다시피 많은 리서치회사의 리서처들은 사회학, 경영학, 심리학 출신들이 많습니다. 대부분의 통계전공자들은 전산직으로 빠져 죽도록 고생하구요… \\ 그 이유를 생각해 보면 통계전공자들은 숫자 하나하나의 의미는 잘 파악할지 몰라도 전체를 바라보는 시각이 부족하기 때문에 그런것 같습니다. |
- | * [[http:// | + | * 예를 들어, 리서치 프로젝트를 수행한 후 클라이언트가 관심있는 것은 \\ 이 조사를 통해 기존의 사실을 확인하거나 미처 알지 못한 여러 사실들을 파악하고자 하는 것인데 통계마인드가 있는 리서처들은 샘플링을 어떻게 할까 어떠한 분석방법을 쓸까 다중비교를 해야하는데 던컨을 쓸까 튜키를 쓸까 이런 부분에 좀더 많은 고민을 하는것 같습니다. |
- | * 아시다시피 많은 리서치회사의 리서처들은 사회학, 경영학, 심리학 출신들이 많습니다. 대부분의 통계전공자들은 전산직으로 빠져 죽도록 고생하구요… \\ 그 이유를 생각해 보면 통계전공자들은 숫자 하나하나의 의미는 잘 파악할지 몰라도 전체를 바라보는 시각이 부족하기 때문에 그런것 같습니다. | + | * 거꾸로 통계비전공자들은 방법이야 어떻든 클라이언트가 알고자 하는 내용은 뭔지 어떤식의 결론을 도출해야 좋을지 고민을 더 많이 하다보니 방법론에 대한 이해는 다소 떨어지는듯 합니다. |
- | * 예를 들어, 리서치 프로젝트를 수행한 후 클라이언트가 관심있는 것은 \\ 이 조사를 통해 기존의 사실을 확인하거나 미처 알지 못한 여러 사실들을 파악하고자 하는 것인데 통계마인드가 있는 리서처들은 샘플링을 어떻게 할까 어떠한 분석방법을 쓸까 다중비교를 해야하는데 던컨을 쓸까 튜키를 쓸까 이런 부분에 좀더 많은 고민을 하는것 같습니다. | + | * 제가 모시던 분은 한글사전을 항상 가지고 다니셨습니다. 왜냐구요? |
- | * 거꾸로 통계비전공자들은 방법이야 어떻든 클라이언트가 알고자 하는 내용은 뭔지 어떤식의 결론을 도출해야 좋을지 고민을 더 많이 하다보니 방법론에 대한 이해는 다소 떨어지는듯 합니다. | + | * [[http:// |
- | * 제가 모시던 분은 한글사전을 항상 가지고 다니셨습니다. 왜냐구요? | + | * 엑셀에서 끝내라! : 통계적 기법에 아무리 잘 적응이 되어 있다고 하더라도 수치를 분석하는 목적을 잊으면 안된다는 것이 대명제입니다… 수치를 왜 분석할까요? |
- | * [[http:// | + | * 리포트는 두개를 준비하라: |
- | * 엑셀에서 끝내라! : 통계적 기법에 아무리 잘 적응이 되어 있다고 하더라도 수치를 분석하는 목적을 잊으면 안된다는 것이 대명제입니다… 수치를 왜 분석할까요? | + | * 표준편차가 뭔데?: 만약 회사의 임금구조가 상하 간의 격차가 너무 크다는 점을 강조하고자 할 때 이를 말하는 방법은 두가지 정도가 생각나네요… \\ 경우 1 : 현재 우리 회사의 연봉수준은 최고치 1억 2천, 최저치 8백, 평균은 4천 5백, 표준편차 6백으로서 격차가 광범위합니다… \\ 경우 2 : 우리 회사에서 가장 높은 연봉을 받으시는 분은 1억 2천만원 부근이고, |
- | * 리포트는 두개를 준비하라: | + | * 통계보다는 인간: 어떤 학자가 뼈빠지게 연구한 결과를 통계적으로 공격한 것인데, 물론 연구논문을 다 보면 더 많이 나오겠지만, |
- | * 표준편차가 뭔데?: 만약 회사의 임금구조가 상하 간의 격차가 너무 크다는 점을 강조하고자 할 때 이를 말하는 방법은 두가지 정도가 생각나네요… \\ 경우 1 : 현재 우리 회사의 연봉수준은 최고치 1억 2천, 최저치 8백, 평균은 4천 5백, 표준편차 6백으로서 격차가 광범위합니다… \\ 경우 2 : 우리 회사에서 가장 높은 연봉을 받으시는 분은 1억 2천만원 부근이고, | + | * [[data_analysis: |
- | * 통계보다는 인간: 어떤 학자가 뼈빠지게 연구한 결과를 통계적으로 공격한 것인데, 물론 연구논문을 다 보면 더 많이 나오겠지만, | + | * [[http:// |
- | * [[:data_analysis: | + | * 1. 일단 데이터를 보기전에 상사의 의중을 묻는다. -연구보고서가 아니므로 결과를 알고 분석에 임하는 자세를 키워나간다. |
- | * [[http:// | + | * 2. 상사의 의중과 대세가 가는 방향에 따라 어떻게 분석해야할지 고민한다. -잘모르는 경우 이것저것 닥치는 데로 분석기법을 총동원하여 상사가 원하는 결과에 근접한 경우의 결과물을 제출한다. 단, 주의할점은 어려운 분석은 절대 안된다는걸 숙지한다. |
- | * 1. 일단 데이터를 보기전에 상사의 의중을 묻는다. -연구보고서가 아니므로 결과를 알고 분석에 임하는 자세를 키워나간다. | + | * 3. 되도록이면 고난이도의 분석을 자제한다. -잘못했다가 설명도 안될뿐더러 이상하게 받아들여질시에는 그에 대한 책임으로 옷벗어야 될지도 모르는 Risk가 따른다. |
- | * 2. 상사의 의중과 대세가 가는 방향에 따라 어떻게 분석해야할지 고민한다. -잘모르는 경우 이것저것 닥치는 데로 분석기법을 총동원하여 상사가 원하는 결과에 근접한 경우의 결과물을 제출한다. 단, 주의할점은 어려운 분석은 절대 안된다는걸 숙지한다. | + | * 4. 데이터가 그렇다는 식의 실언은 두번 다시 하지 않는다. - 데이터의 문제라고 했다가 괜히 결과의 책임을 지지않는 무뇌한으로 찍힐수가 있다. 가끔은 무능력하다는 말도 듣는다. |
- | * 3. 되도록이면 고난이도의 분석을 자제한다. -잘못했다가 설명도 안될뿐더러 이상하게 받아들여질시에는 그에 대한 책임으로 옷벗어야 될지도 모르는 Risk가 따른다. | + | * 5. 결과를 해석할 시에 통계적인 언어보다는 되도록 경영 경제적인 언어를 쓰며 이를 연마 하기 위해 끊임없이 연습하고 습득한다. \\ -만약에 그러한 언어 습득이 힘들시에는 간단한 도표를 통해 의사를 전달하고 말없이 회의에 참석한다. |
- | * 4. 데이터가 그렇다는 식의 실언은 두번 다시 하지 않는다. - 데이터의 문제라고 했다가 괜히 결과의 책임을 지지않는 무뇌한으로 찍힐수가 있다. 가끔은 무능력하다는 말도 듣는다. | + | * 6. 감히 P_value에 대해 이해 시키려고 하지 않는다. - 그러다가 잘난 척한다는 말을 들을 뿐아니라 괜히 내풀에 열받아 씩씩 대기 쉽다. |
- | * 5. 결과를 해석할 시에 통계적인 언어보다는 되도록 경영 경제적인 언어를 쓰며 이를 연마 하기 위해 끊임없이 연습하고 습득한다. \\ -만약에 그러한 언어 습득이 힘들시에는 간단한 도표를 통해 의사를 전달하고 말없이 회의에 참석한다. | + | * 7. output을 보지 않고도 결과에 대해 막연하게 말하는 능력을 키워야 한다. 거기에 덧붙여서 결과가 말한것과 상반되게 나왔을 경우 이를 적당한 이유로 결과를 뒤집는 것도 동시에 연습한다. |
- | * 6. 감히 P_value에 대해 이해 시키려고 하지 않는다. - 그러다가 잘난 척한다는 말을 들을 뿐아니라 괜히 내풀에 열받아 씩씩 대기 쉽다. | + | * 8. 숫자의 결과를 말하듯 직설적으로 결과를 말하지 않으며 또한 그 결과에 운운하지 않는다. -엑셀로 편집하면 별로 좋아보이지 않는 결과도 좋아보인다. 파워포인트면 더 좋다. |
- | * 7. output을 보지 않고도 결과에 대해 막연하게 말하는 능력을 키워야 한다. 거기에 덧붙여서 결과가 말한것과 상반되게 나왔을 경우 이를 적당한 이유로 결과를 뒤집는 것도 동시에 연습한다. | + | * 9. 학생때 배우고 통계상담을 하면서 익혔던 방법론들과 통계패키지를 쓰는 법위에 엑셀과 파워포인트, |
- | * 8. 숫자의 결과를 말하듯 직설적으로 결과를 말하지 않으며 또한 그 결과에 운운하지 않는다. -엑셀로 편집하면 별로 좋아보이지 않는 결과도 좋아보인다. 파워포인트면 더 좋다. | + | * 10. 분석을 하면서도 늘 겸손의 자세로 하나도 모른다는 식의 맨트를 섞어 가며 일을 한다. |
- | * 9. 학생때 배우고 통계상담을 하면서 익혔던 방법론들과 통계패키지를 쓰는 법위에 엑셀과 파워포인트, | + | * [[http:// |
- | * 10. 분석을 하면서도 늘 겸손의 자세로 하나도 모른다는 식의 맨트를 섞어 가며 일을 한다. | + | * 1. 자신이 담당하고 있는 분야의 데이터 소스 |
- | * [[http:// | + | * 2. 합, 총합, 부분합, 평균, 가중평균, |
- | * 1. 자신이 담당하고 있는 분야의 데이터 소스 | + | * 3. 위 2항의 각 개념들을 (어떤 방식으로든) 산출하는 방법 |
- | * 2. 합, 총합, 부분합, 평균, 가중평균, | + | * 4. 산출된 수치를 table 과 graph 로 표현하는 방법 |
- | * 3. 위 2항의 각 개념들을 (어떤 방식으로든) 산출하는 방법 | + | * 5. 산출된 수치를 해석하여 보고서를 작성하고 이를 설명하는 방법 |
- | * 4. 산출된 수치를 table 과 graph 로 표현하는 방법 | + | * 만약 저에게 초보직장인을 대상으로 통계적 지식을 강의하라고 한다면 이런 범위를 벗어나지 않고 강의할 것 같습니다. |
- | * 5. 산출된 수치를 해석하여 보고서를 작성하고 이를 설명하는 방법 | + | * [[http:// |
- | * 만약 저에게 초보직장인을 대상으로 통계적 지식을 강의하라고 한다면 이런 범위를 벗어나지 않고 강의할 것 같습니다. | + | * 핵심문제를 정의할 수 있을 정도로 비즈니스를 이해해야 한다. |
- | * [[http:// | + | * 비즈니스에 영향을 미칠 수 있는 요소에 대한 깊은 이해가 있어야 한다. |
- | * 핵심문제를 정의할 수 있을 정도로 비즈니스를 이해해야 한다. | + | * 구할 수 있는 데이터에 기초해서, |
- | * 비즈니스에 영향을 미칠 수 있는 요소에 대한 깊은 이해가 있어야 한다. | + | * - 데이터로부터 통찰력을 잘 끄집어내기 위해 다양한 시각화를 잘 사용해야 한다. |
- | * 구할 수 있는 데이터에 기초해서, | + | * 초기가설을 세우기 전에 어떤 장애물이 있을지 짐작해봐야 한다. |
- | * | + | * 제시된 해결책이 끼칠 비즈니스에서의 영향력에 대해 이야기해야 한다. 청중이 이끌리지 않는 스토리는 의미 없다. (조직에 영향을 미칠 핵심요소로서 데이터 이야기) |
- | + | * 고객의 눈높이에 맞게 이야기해야 한다. | |
- | - 데이터로부터 통찰력을 잘 끄집어내기 위해 다양한 시각화를 잘 사용해야 한다. | + | * [[http:// |
- | + | * 검색 데이터가 축적됨에 따라, 알고리즘도 검색 엔진 사용자들이 갖고 있는 편견을 그대로 반영하게 된 것입니다. 기계가 사용자들의 편견을 학습하고, | |
- | | + | |
- | * 제시된 해결책이 끼칠 비즈니스에서의 영향력에 대해 이야기해야 한다. 청중이 이끌리지 않는 스토리는 의미 없다. (조직에 영향을 미칠 핵심요소로서 데이터 이야기) | + | |
- | * 고객의 눈높이에 맞게 이야기해야 한다. | + | |
- | * [[http:// | + | |
- | * 검색 데이터가 축적됨에 따라, 알고리즘도 검색 엔진 사용자들이 갖고 있는 편견을 그대로 반영하게 된 것입니다. 기계가 사용자들의 편견을 학습하고, | + | |
~~DISCUSSION~~ | ~~DISCUSSION~~ | ||