Data Mind

data analysis, 분석, 마음가짐

나의 데이터, 남의 데이터
- 우선, 위의 조치는 통계적인 논리로는 타당하다. 무슨 뜻이냐 하면, 확실히 뒤집한 양말을 신은 사람이 비행기 사고로 죽거나 다칠 가능성이 제대로 양말은 신은 사람이 비행기 사고로 죽거나 다칠 가능성보다는 현저히 낮다. 그렇기에 사고의 “가능성”은 확실히 줄어든다.
- 양말을 바꿔 신은 이가 사고나서 죽을(혹은 부상당할) 가능성은 남의 데이터인 것이다.
- “가능성”을 줄이는 것이 의미가 없을 때가 있다
- 데이터 분석보다 중요한 것이 데이터 자체이고 데이터 자체보다 중요한 것이 데이터가 내 것인지 남의 것인지를 아는 것.
raw데이터와 정보
- 우리 모두 ‘raw 데이터’가 중요한 건 잘 알고 있다. 특히 많은 VC가 특정 비즈니스를 검토할 때, 실제 그 비즈니스보단, 이 비즈니스를 통해서 궁극적으로 얻을 수 있는 데이터가 얼마나 가치가 있냐에 따라서 투자 결정을 하는 경우도 많을 정도로 데이터는 중요하다. 하지만, 잘 생각해보면, raw 데이터가 중요한 이유는, 이 데이터를 잘 분석해서 특정 패턴을 찾을 수 있다면, 실생활에 도움이 되는 유용한 결정을 하기 위한 ‘정보’를 만들 수 있기 때문이다. 정보를 만들지 못하면, 세상의 모든 데이터가 있어도 소용없다
『분석 전문가가 말하는 빅데이터』 (김승범 외)
- 빅데이터 분석도 지수(index)가 답이다
- 이상치는 제거할 대상이 아니라 연구할 대상이다
- 비즈니스 임팩트를 항상 고려해야 한다
『데이터 과학 무엇을 하는가』 (김옥기)
- 필자는 데이터를 받으면 일단 수천억 개의 레코드를 눈으로 직접 훑어 보고, SQL로 만들어 문제가 없는지 일일이 검토한다.
- 액시엄 스스로도 데이터의 30% 정도는 정확성이 떨어진다고 인정한다. 그러나 마케팅분야에서는 정확도 70%인 품질이 낮은 데이터도 데이터 과학자의 손을 거치면 충분히 가치있는 정보로 변신한다.
데이터가 충분하면 알고리즘이 중요하지 않을 수 있다.
- 구글 엔지니어들은 이 논문에서 단순한 통계 모델이라도 아주 많은 데이터를 결합할 경우, 수많은 피처와 요약으로 구성된 우수한 인텔리전트 모델보다 더 나은 결과를 제공한다고 주장했다.
- The Unreasonable Effectiveness of Data https://ieeexplore.ieee.org/document/4804817/?reload=true

p-해킹
데이터 세계의 황금 트라이앵글
- 데이터분석가(Data Analyst): 비즈니스를 수행하는 사람들 사이에 섞여서 하루종일 SQL 구문을 작성하거나 엑셀을 만지작거린다.기본적으로 그들은 변덕스러운 데이터 요청에 반응하는 ‘인간 SQL’이다. 기술적인 성장에 대한 욕구가 있는 사람이라면 선택할 수 있는 길이 아니다. 그렇지만 회사의 비즈니스 도메인, 즉 데이터 자체에 대해 가장 많은 지식과 경험을 쌓는 건 결국 이들이다. 기술이나 개발에 직접 연결하기는 어렵지만 이들이 가진 지식과 경험은 황금 트라이앵글의 한 축을 형성한다. 특히 스파크를 중심으로 하는 최근 데이터 공간의 변화는 질척한 SQL의 늪에 빠진 이들을 최신 기술의 세계로 인도하고 있다. 그래서 데이터의 흐름을 이해하고, 시각화하고, 분석한다. 이런 과정에서 파이썬, 스칼라, R 같은 언어로 코딩을 하고, 다양한 시각화 도구를 이용해서 데이터의 흐름도 보여준다. 반복되는 상사의 변덕을 코드로 자동화해서 처리하고, 남는 시간을 이용해서 머신러닝을 이용한 이상감지(anomaly detection) 시스템 등을 구축한다. DA가 이런 일을 수행하려면 원하는 데이터가 원하는 장소에 있어야 하는데, 그 일을 해주는 것이 데이터 엔지니어다.
- 데이터 엔지니어(Data Engineer): A라는 장소에 있는 데이터를 B라는 장소에 옮기는데 따르는 모든 엔지니어링적 요소를 책임진다. DE가 데이터를 옮기는 일에 주력한다면, DS는 데이터의 내용 자체에 집중한다.
- 데이터 과학자(Data Scientist): 역할은 피처 엔지니어링(feature engineering)에 있다. 데이터에 구조를 부여하고, 비정상적인 데이터를 배제하고, 빠진 데이터를 채워 넣고, 오류를 바로잡고, 비즈니스의 목적에 따라 데이터를 선택하고, 통계적 모델을 고민하고, 머신러닝 학습을 수행해서 모델을 산출하고, 결과를 검증하고, 모델을 개선하고, 개발팀에서 모델을 사용할 수 있도록 API를 만들어 제공한다. 예컨대 데이터를 실시간 스트리밍으로 옮길지 아니면 마이크로배치로 옮길지 하는 것은 그들의 주요한 관심사가 아니다. 그건 DE의 몫이다.
TED: Making Sense of Too Much Data
수영에서 동률이 자주 나오는 이유
- 수영장 크기 기준은 각 레인의 길이 오차를 3cm 로 정하고 있습니다. 이는 수영선수가 천 분의 1초 동안 나아갈 수 있는 길이의 열 배가 넘습니다.
2017년 5대 빅데이터 트렌드
- 사이버 보안강화, Apach Spark, Deep Learning, Cloud, Forecasting
- 그러나..새로운 기능을 추가하였을 때 클릭이 줄어들었다면 그 기능을 사람들이 싫어한다고 결론을 내릴 수는 없다. 새로운 기능에 대해 사람들이 모르고 있을 수도 있고, 기능을 사용하는 버튼의 모양이 마음에 안 들 수도 있으며, 시대를 앞선 기능이어서 몇 개월 후에야 사람들이 좋아할 기능일 수도 있다. … 빅데이터 처리가 여러 오픈소스 프로젝트 등에 의해 쉬워질 수록, 앞으로 빅데이터 처리 기술 보다는 데이터를 활용하고 해석하는 능력이 더 중요해 질 것이다.
지표를 바르게 사용하는 법
- A: 우리 서비스에서 재방문자 비율을 가장 빨리 높일 수 있는 방법은 무엇일까요?
  나: 신규 가입을 중단시키면 됩니다.
- 주요 지표가 재방문율인 서비스가 있다면, 어떤 목표를 보기 위해 '재방문'이란 것을 사용했는지, 그 '재방문'은 어떤 구간을 정의했고, 왜 구간을 그렇게 잡았는지, 현재 서비스에서 원하는 재방문율은 어느 정도인지, 그리고 왜 재방문율을 주요 지표로 잡고 있는지를 고민해보고, 기준을 합의하고, 이 기준에 대해 인지하고 있으며 이 기준이 어떤 전제조건 하에서만 유효한 것인지를 알고, 이를 통해서 어떤 결정을, 어떤 가치를 창출하려고 하는 지를 이해하고 있어야, 바르게 지표를 알고 있는 것이다. 그리고 그 지표는 단지 목표를 위한 도구임을 인지하고, 그 도구를 위해 일을 하는 것이 아니라, 하고 있는 일에 그 도구를 적절히 반영할 때, 바르게 지표를 사용하고 있는 것이다. 그게 아니라면, 아무리 남들이 많이 쓰는 지표든, 혹은 페이스북이나 구글 같은 데서 쓰는 지표든, 자신에게는 먼 옛날의 KPI처럼 목적과 수단을 혼동한 채 압박받는 보여주기식 숫자에 그쳐버리거나 [린 분석]에서 이야기하는 '허상 지표'가 될 뿐이다.
빅데이터 분석가, 전문가가 부족한 이유 |2
- 빅데이터 전문가는 외부에서 영입하는 것이 아니라 내부에서 자생적으로 생성 되는 것이다.
- 내부 혁신이 불가능한 기업과 오너 중심의 대기업은 데이터 분석가가 필요하지 않다. 다만 오너의 생각을 읽고서 적당하게 마사지 된 데이터를 보여줄 외부 데이터 분석 서비스 업체만 필요할 뿐이다. 국내에는 데이터 분석 서비스 업체 정도가 적당하다.
- 빅데이터나 머신러닝과 같은 지식화 인사이트는 절대 IT 기술이나 주변의 소프트웨어 솔루션으로 만들어지는 것이 아니다. 기업 내부에 축적된 지식을 기반 두고 사람을 기준으로 데이터가 만들어진다. 데이터 분석 전문가는 단지 그것의 가치를 판정할 수 있는 기준을 마련해줄 뿐이다.
전략기획자의 분석
- 잘된 분석은 누구도 알 지 못했지만 실제로는 느리지만 크게 벌어지는 현상을 설명해 줍니다.
- 인사이트에 대한 강박을 버려야 합니다. 가장 많이 드러나는 분석의 그릇된 현상이기도 합니다. 데이터와 데이터 사이에 무슨 연관성이 있다거나 데이터의 시계열 추이 상 지금이 특별히 어떤 상태임을 뭐라도, 한 줄 이라도 써서 보고하거나 제공합니다. 만약 분석을 했는데 뚜렷한 인사이트가 발견되지 않으면 '이것과 저것 사이에 상관성이 없다' 혹은 '이 데이터와 저 데이터는 무관하다', '지금은 어떤 특별한 상황도 아니다'라고 말하지 않습니다. 어떤 식으로든 다른 방법과 다른 차원의 분석을 해서 뭐라도 있는 거라고 보고서에 써서 내기를 원합니다. 이런 인사이트에 대한 강박은 중요하지 않은 것을 중요한 것으로 만들어 버립니다. 별다른 것이 아니고 오히려 부분적으로 전체를 휘두를 수 있는 것을 정확한 판단이라고 말합니다.
- 가장 모수가 많고 사업에 직접적인 영향을 미치는 변수에서 답을 못 찾을 때 다른 데이터를 찾기 보다는 이미 큰 인사이트가 없는 데이터를 더 세부적으로 쪼갭니다. 변수를 세분화 해서 뭔가라도 할 말을 찾는 것이죠. 결국 나누고 나누다 보면 일정 성향을 띠는 뭐라도 나올 것입니다. 하지만 이런 것은 실제 사업에 쓸모없을 때가 많습니다. 분석을 위한 분석으로 흐를 가능성이 높습니다.
- 실제 분석가는 분석의 최종 결과를 스토리로 만들 수 있어야 합니다. 사업에 쓰이려면 이게 어떤 의미를 지니고 이런 일을 하면 이런 효과가 고객이나 우리 내부 프로세스에 생긴다고 말을 할 수 있어야 합니다.
인공지능 구현 전 먼저 고민해야 할 것
- 구글은 이 연구를 위해 미국의 유능한 안과 의사 54명을 동원, 12만장 이상의 안저 영상 학습 데이터셋을 구축했다. 인간을 대체 혹은 능가하는 기술을 만들기 위해 가장 필요한 것은 인간이 만든 질 좋은 데이터란 뜻이다.
- 특정 분야를 제외하면 한국에 눈에 띄는 인공지능 기술 기반 스타트업이 없었던 것도 이 같은 배경 때문이다.
- 이러한 상황에도 불구하고 눈에 띄는 인식 서비스를 제공하는 스타트업들이 있다. 촬영한 영수증을 자동으로 인식해 기업의 가계부를 써주는 자비스(Jobis), 명함을 찍으면 자동으로 내용을 입력해 정리해 주는 리멤버(Remember) 등이 그 예다.
- AI 기술 적용을 고민하는 회사는 먼저 자문해야 한다. 멋져 보이는 알파고가 되기 위해 놀림 받는 알바고가 될 준비가 되어 있는지.
AI Startup 17년 예측
- 봇은 망한다: 사람들은 여전히 대부분의 일을 위해 다른 사람들과 상호 작용하기를 좋아합니다. 그리고 나는 많은 챗봇들이 사회적 큐레이팅없이 개인화를 시도한 비(非)사회적 미디어 플랫폼과 같은 미래를 맞이할 것이라고 생각합니다. 대화식 인터페이스는 다른 시각적 솔루션에 비해 작업을 수행하는 데 매우 비효율적입니다.
- 딥러닝은 공산품이 된다
- MLaaS(서비스로서의 머신러닝)는 두 번 죽을 것이다: 뭐 좀 할줄 아는 사람은 그냥 오픈소스를 씁니다. 그리고 못하는 사람들은 API를 아무리 갖다 줘도 동작시키는 방법을 모릅니다.
- 풀스택 버티컬 AI 스타트업들은 잘 될것이다: AI 스타트업을 시작하는, 아마도 기술을 잘 아는 사람들은 어떤 분야의 '스택 업', 아니면 '풀 스택'을 갖추기 위해 해당분야의 전문지식이나 해당 분야에 대한 겸손이 필요하다는 사실을 잘 모르거나, 인정하지 않으려 하는 경향이 있습니다. '버티컬 AI 스타트업'은 특정 분야의 전문 지식, 고유한 데이터, AI가 핵심 가치를 제공하는 제품을 필요로 하는 풀스택 산업 문제를 해결합니다.
알파고에 대한 오해와 진실, 그리고 남겨진 숙제
- 결국 빅데이터나 딥러닝이나 문제 해결의 수단이다. 이미 많은 데이터와 충분한 컴퓨팅 파워가 있으며 학습 성능이 해석 가능성보다 중요한 경우 딥러닝은 고려해볼 만한 옵션이다. 하지만, 런타임에서의 성능 및 예측 결과를 설명할 수 있어야 하는 경우 딥러닝은 최선의 선택은 아니다. 또한 기계학습은 일단 만들어 놓으면 끝이 아니라 이를 꾸준히 유지 보수하는 비용도 생각해야 한다. 요약하면 무작정 딥러닝을 배우기보다는 주어진 예측 문제의 성격부터 고민해야 한다는 것이다.
인정받는 데이터 분석가 되기 – 외부 세미나 요약 –
- 손가락(R, Python, SAS …)을 보려하지 말고 달(데이터 분석, 통계…)을 봐라.
- 도구에는 이 분야의 선구자들의 노하우가 숨겨져 있기도 하다. 예를 들어 Tidy Data로 알려진 `dplyr`, `ggplot2`, `reshape2` 등의 패키지 셋은 정확하고 간단하게 데이터를 전처리하고 시각화하는 어떤 문법이 존재할 수 있음을 알려주며, 실제 여러 실무에서 널리 사용되고 있다는 사실이 그것을 증명하고 있다.
- 개인적으로 트위터 분석 등 대부분의 SNS 텍스트, 네트워크 분석을 신뢰하지 않는 이유중에 하나는 ‘대조군’이 대부분 누락되어 있어 과학이라 말하기 어렵기 때문이다.대조군을 설정하기 너무 어려운가? 그럼 그냥 랜덤으로 선택하라!
- 고객분석의 경우 클러스터링이 교과서 처럼 될 수 있다는 환상을 버리는게 중요하고, 시간이 가면서 고객은 변하고 그 스펙트럼은 매우 다양하다는 것을 이해할 필요가 있으며 같은 기본가정을 기반으로 분석을 수행하는게 맞다고 생각한다. 이런 관점에서 고객을 베이지언적인 관점으로 바라보는게 때로는 적절하다고 본다.
- 분석가 본인이 보기에 실패한 분석 결과라도 애정있게 정리하고 공유하면 여러 동료들의 예리한 눈으로 부족한 부분, 실수한 부분, 보완한 부분들을 찾을 가능성이 높다. 그럼 다시 그 가설은 살아날 기회를 얻게 된다.자신의 생각을 모두 보여준다는 것에 대해 부끄럽게 생각하지 말고, 공유하고 논의하라!
- 단적인 예로 outlier detection이라든지, anomaly detection류의 문제는 희소한 이벤트 때문에 모집단에 근접한 데이터량이 필요하지만 대부분 모델링, 통계분석을 기반으로 하는 의사 결정에 모집단의 모든 정보가 필요하지는 않다. 오히려 데이터 노이즈와 에러로 인해 전처리를 하는데 많은 시간이 소요되기 십상이다. 모든 값을 이용한 평균값과 샘플링을 이용한 평균값의 차이가 그리 크지 않다는 간단한 실험만으로도 간접적으로 확인이 가능할 것이다. 물론 데이터가 많을수록 정확도가 향상되는 모델링 기법들이 존재하는데, 이 두 모델의 차이와 의미를 이해하고 빅 데이터 기반 방법론을 활용하는게 효과적일 것이다.
- 데이터 분석 과정이나 결과를 주변과 자주 빠르게 공유하는 행위는 올바른 분석을 위해서 매우 필요한 행동이다.
- 많은 경우 EDA의 종말은 ‘이미 알고 있는 사실을 데이터로 확인한 결과’가 되는 경우가 많다. 이런 경우 의뢰인에게 `인지적 편안함`만 주고 분석은 끝나게 된다. 이는 대부분 초보 분석가 분들이 가지는 많은 고민중에 하나인데, 이러한 결과가 나오는 원인중에 하나는 대부분 교과서적인 분석만 해봤고, 봐왔기 때문이다. 하나의 분석 주제라도 이를 해결해 나가는 방식은 매우 다양하고 그 결과의 깊이도 다를 수 있다. 고수와 초보의 차이는 여기서 어떻게 한 발자국 더 나아가는지에 따라 갈라진다. 필자가 하나의 팁을 알려주자면 해결하고자 하는 문제를 `Formula` 형태로 정의해 보는 것이다. 이와 같이 정의해보면 단면적으로 문제를 보는 것보다 입체적인 사고를 할 수 있게 되는데, 흡사 위 `Formula`를 `Regression`의 형태로 보는 것만으로도 상당히 많은 인사이트 단서를 발굴해 낼 수 있다. 물론 이를 위해서는 최소 `Regression`에 대해서는 예측 뿐만아니라 추론영역 혹은 이를 활용한 다양한 분석 방식에 통달해 있어야 될 것이다.
- 필자가 매년초에 주기적으로 하는 일중에 하나는 기초통계학 책을 탐독하는것이다. 신기하게도 매년 그 의미의 깊이가 다르게 느껴지고 문구 하나하나가 이전에 탐독을 했을때와는 다르게 느껴지는 것을 경험한다.
- 대부분 어떠한 전공 커리큘럼을 따라서 공부하는것에 매우 큰 부담을 안고 있다. 이는 이전에 자신이 시간 투자하고 공부한 자신의 전공의 프레임에 빠져 있기 때문이라 생각한다. 능력있는 분석가가 되기 위해서는 사실 거의 체내화 되어 있어야 되는 개념(학문)들이 다수 존재하는데, 이를 위해 시간투자는 불가피하다. 게다가 개론서/소개서 몇권만으로 절대 익히기 어려운 개념들이 대다수여서 필자의 경우 커리큘럼 자체를 공부하라고 추천하곤 한다. 이는 개론서만으로 얻을 수 없는 해당 학문 응용의 지혜를 그 시간투자를 통해서 얻을 수 있기 때문이다. 단순히 교과서적인 분석만을 자신이 수행하고 있다고 한다면 잠시 업무를 내려놓고 여러 통계학 서적과 통계를 여러 다른 방식으로 활용한 방법론 책을 보길 추천하고, 이 과정을 확대하면 통계학 커리큘럼을 따라가게 되는 것이다.
빅데이터에 대한 아홉가지 문제들
- 빅 데이터를 기반으로 하는 많은 도구들이 쉽게 조작이 가능할 것이다. 심지어 빅 데이터의 대표적인 성공사례인 구글의 뛰어난 검색엔진 조차도 인위적인 검색결과를 시도하는 교활한 기술, 구글폭격(Google bombing)과 스팸덱싱(spamdexing)에는 속수무책으로 당한다.
- 대부분의 빅 데이터가 웹으로부터 온다는 사실에 기인하는, 소위 반향효과 일 것이다. 몇몇 덜 공통적인 언어들은 구글번역을 이용하여 많은 수의 위키피디아 문건들을 작성했을지도 모른다. 이런 경우들은 구글 번역의 초기 오류들이 위키피디아에 문제를 일으키고, 이 문제는 다시 구글 번역에 영향을 미쳐서 궁극적으로 오류를 증가시킨다.
데이터 속 사람을 봅니다, Mind Miner 송길영님
- 입사 후 1년 내에 관두는 경우가 몇 가지 있습니다. 먼저 집이 먼 사람입니다. Early Bird도 소용 없습니다. 신입 사원을 길들이기 위해 집에 늦게 보내기 때문입니다. 두 번째는 지하철과 버스를 세 번 네 번 갈아 타고 출근해야 하는 사람입니다. 세 번째는 회사에서는 왕따지만 5개 이상의 Social Media에 가입되어 있거나, LinkedIn에 영어 이력서를 올리는 사람입니다. HR은 이 같은 정보를 기반으로 지원자들을 거릅니다. 동네 애들만 뽑는 이상한 짓을 하고, 자신의 행동을 합리화 합니다. 그러나 회장님의 Level은 다릅니다. 집이 먼 구성원들을 위해 버스를 사고 기숙사를 짓습니다. 그래서 Decision Maker가 아니면 데이터를 주지 않습니다.데이터는 실마리 ^Clue 를 줍니다. 그러나 데이터는 답 ^Answer 을 주지 않습니다. 권한과 지능이 없다면 데이터는 무용지물입니다. 그래서 Data-driven decision making을 배격합니다.
기획,마케터가 알아둘 데이터 과학 6원칙
- 국내에서 가장 인기있는 청바지 브랜드는 무엇일까. 하지만 국내에서 가장 높은 점유율을 차지하는 청바지 브랜드는 ‘뱅뱅'이다. 내 주변에서는 뱅뱅 청바지를 입은 사람이 별로 없는 듯하지만, 실상은 상당수가 뱅뱅 청바지를 구매하고 있었던 셈이다. 뱅뱅이론은 나와 내 주변 사람들이 다 동의해 사실로 받아들였던 부분이 알고보니 진실이 아니라는 걸 의미하는 말이다. 하용호 대표는 “데이터를 기반으로 진짜 세상의 반응을 측정해야 한다”라며 “내 생각은 데이터를 보기 전에는 맞는지 알 수 없다”라고 설명했다.
- 보통 기업은 1년간 계획을 세우고 매달 필요한 것을 실행한다. 이 과정에서 끊임없는 보고가 일어난다. 마치 가을 수확을 위해 한 해 동안 농사를 짓는 것과 비슷한 모습이다. 데이터과학은 이러한 방식으로는 진행될 수 없다. 원하는 결과를 얻기 위해 계획을 하고, 시도하고, 검토하는 과정이 아주 빠른 주기로 반복된다. 이 속도가 빠를수록 데이터과학 결과물도 좋아질 수 있다. 보고 과정이 줄어야 하고 실무자에게 권한을 위임하는 과정도 필요한다. 하용호 대표는 “물론 이 과정이 전통적인 기업에서 쉽지 않다는 것을 알고 있다”라며 “하지만 보고체계가 긴 문화에서는 데이터과학을 적용하는 건 힘들다고 보면 된다”라고 설명했다.
- 물류 전문기업 UPS가 대표 사례다. UPS는 1990년대부터 많은 데이터를 수집했다. 이들이 모은 데이터는 엔진 센서, 차량 이동경로, 송장 처리 기록까지 다양하다. UPS는 택배과정을 크게 4가지로 구분했다. 과거엔 무작정 물건을 배정했다면, 데이터를 수집한 뒤부턴 배달기사의 이동 경로에 따라 택배량을 조절했다. 또 운전하기 쉬운 우회전 방향으로 배달 지역을 배치했다. 짐칸을 여는 과정에서 시간이 지체되는 것을 확인하고 버튼 하나를 누르면 시동이 바로 꺼지고 뒷문이 자동으로 열리는 기술을 개발해 수송차량에 적용하기도 했다. 배송 과정에서 자주 쓰는 사인펜은 왼쪽 가슴 주머니에 넣는 게 효율적이란 것도 데이터를 통해 발견해냈다.
데이터사이언티스트가 되기 위해 가장 먼저 배워야 할것?
- Data engineering 과 data science 사이에서 가장 모호한 경계에 있는 부분이 데이터 추출(extraction)인데 이 경계선 상에서 대표적으로 활용되는 범용 도구가 SQL 이기도 하다. 이 사실 역시 SQL 의 중요성에 한 표를 던지게 된다. 여러가지 이유가 생각이 나지만 그래도 그 중 가장 강력하게 머리에 맴도는 것은, 데이터에서 관계를 뽑아낸다는 이 꽤나 막연할수도 있는 컨셉을 손으로 확실하게 익히게 해 주고 뇌 새김을 해 주는 것이 table 을 다루는 것이라는 점. (배열이나 리스트 구조와는 아무래도 약간 느낌이 다른?) SQL은 결국 table 에 액션을 취하는 언어이니 말이다.
엉터리 데이터분석에 주의해라
- 쿠폰남발: 즉 쿠폰이 없을 때 이들 충성 고객으로부터 얻었을 매출을 감안하지 않는 한 분석은 실제 ‘쿠폰 효과’를 과장하기 쉽다.
- 검색광고오류: 기업이 “귀여운 아기 옷”에 돈을 지불하지 않았을지라도 회사에 생성되었을 수 있는 클릭이 있을 수 있다. 그 숫자를 정확히 알 수 없을 뿐이다.
통계는 나의 밥줄이다
- 아시다시피 많은 리서치회사의 리서처들은 사회학, 경영학, 심리학 출신들이 많습니다. 대부분의 통계전공자들은 전산직으로 빠져 죽도록 고생하구요…
  그 이유를 생각해 보면 통계전공자들은 숫자 하나하나의 의미는 잘 파악할지 몰라도 전체를 바라보는 시각이 부족하기 때문에 그런것 같습니다.
- 예를 들어, 리서치 프로젝트를 수행한 후 클라이언트가 관심있는 것은
  이 조사를 통해 기존의 사실을 확인하거나 미처 알지 못한 여러 사실들을 파악하고자 하는 것인데 통계마인드가 있는 리서처들은 샘플링을 어떻게 할까 어떠한 분석방법을 쓸까 다중비교를 해야하는데 던컨을 쓸까 튜키를 쓸까 이런 부분에 좀더 많은 고민을 하는것 같습니다.
- 거꾸로 통계비전공자들은 방법이야 어떻든 클라이언트가 알고자 하는 내용은 뭔지 어떤식의 결론을 도출해야 좋을지 고민을 더 많이 하다보니 방법론에 대한 이해는 다소 떨어지는듯 합니다.
- 제가 모시던 분은 한글사전을 항상 가지고 다니셨습니다. 왜냐구요? 리서치보고서에 있어서 맞춤법, 띄워쓰기 등도 아주 중요하니까요…
직장인을 위한 통계
- 엑셀에서 끝내라! : 통계적 기법에 아무리 잘 적응이 되어 있다고 하더라도 수치를 분석하는 목적을 잊으면 안된다는 것이 대명제입니다… 수치를 왜 분석할까요? 그건 어디까지나 의사결정의 수단 중 하나이기 때문입니다. 때로는 이미 결정권자의 마음 속에 정해져 있는 결론을 뒷받침하는 경우도 허다하구요… 제가 미국회사를 다녀서 잘 아는데 제가 다니는 세계적인 대기업도 이 범주를 벗어나지 않습니다… 그냥 옆으로 가는 표 하나 만들어주고 천원단위로 절사한 매출액 죽 나열하고 (통계에서 천원 미만을 잘라버리면 그건 죄악이죠? 하지만 직장에서는 다 천원미만은 자르지 않습니까… 어떤 경우에는 1억원 미만도 잘라버리는데요…), 거기에 딱 하나, 전년대비 증가율 입력해 주면 훌륭합니다… 조금 더 하고 싶으면 그 밑에 그래프나 하나 그려주구요…
- 리포트는 두개를 준비하라: 그런데 어쨌든 보고서를 만들어 보고를 하다 보면 가끔은 보고를 받는 사람들이 생각도 못했던 질문을 던지기도 합니다. 제가 앞편에서 말씀드린대로 10년간 매출액 추이를 보고하고 있는데 갑자기 사장님께서 ‘2000년도에 매출이 떨어진 이유는 뭐지?’ 라고 물어보실 수도 있죠.
  물론 이 정도 확연한 변화에 대해서는 누구나 질문에 대한 대답을 준비하지만, 그럴 경우 그냥 말로만 하는 것보다는 조금 더 전문적인 분석기법에 의한 수치를 제시하면 좋을겁니다. 이러기 위해서… 보고서는 두개를 준비하는 것이 좋습니다… 일단 엑셀 수준에서 만들어진 보고서, 잘 만들어진 보고서를 하나…
- 표준편차가 뭔데?: 만약 회사의 임금구조가 상하 간의 격차가 너무 크다는 점을 강조하고자 할 때 이를 말하는 방법은 두가지 정도가 생각나네요…
  경우 1 : 현재 우리 회사의 연봉수준은 최고치 1억 2천, 최저치 8백, 평균은 4천 5백, 표준편차 6백으로서 격차가 광범위합니다…
  경우 2 : 우리 회사에서 가장 높은 연봉을 받으시는 분은 1억 2천만원 부근이고, 가장 적은 분은 8백만원입니다. 상당히 격차가 큰데, 통계수치를 계산해 봤더니 평균은 4천 5백이었고 표준편차는 6백만원으로 나왔습니다…
  두 경우 중 어느 쪽이 좋다고 생각하십니까? 개인적인 생각이지만 저는 두번째 경우가 좋습니다. 똑 같은 표준편차라는 말을 하면서도 사용하기에 따라 얼마든지 달라질 수 있는 것이지요. 하긴 표준편차라는 말 굳이 사용할 필요도 없지만…
  그러기에… 통계수치를 들먹여야 할 경우에도 언제나 듣는 사람이 알아듣기 쉬운 말로, 때로는 조금 오류가 있는 설명을 붙이는 것도 필요한 것입니다.
  선형회귀분석에서는 언제나 가장 먼저 ANOVA 분석으로 모델 자체의 적합성을 검정하고, 다음으로는 각 회귀계수를 추정하죠? 이럴 때 엄격한 통계적해석을 고집하면 별로 설명할게 없어집니다. 기껏 돌렸더니 회귀계수가 유의하지 않으면 어떡할 겁니까? 그렇더라도 설명을 할 때는 ‘이 요인이 하나 올라갈 때 전체적으로 어느 정도의 상승효과가 있다…’ 식으로 가끔은 거짓말도 하여야 하는 것이죠… 말… 쉽게 합시다…
- 통계보다는 인간: 어떤 학자가 뼈빠지게 연구한 결과를 통계적으로 공격한 것인데, 물론 연구논문을 다 보면 더 많이 나오겠지만, 일단은 표본 설정과 데이터 수집 부분을 집중적으로 공격한 것이죠… (표본 bias, 응답 신뢰도, Categorizing, 차이의 통계적 유의도, 연역적 가정 여부) 남이 만든 보고서를 공격하기 위해서는 이게 가장 쉬운 방법입니다. 통계적 분석기법이야 어차피 누가 하더라도 고전적인 가정을 다 충족시키기는 어려우니 공격하기 어렵죠… 그래서 가장 기본적인 부분을 파고드는 것입니다.
직장에서 p-value 설명하는 법
통계하는 사람들의 직장에서의 모습
- 1. 일단 데이터를 보기전에 상사의 의중을 묻는다. -연구보고서가 아니므로 결과를 알고 분석에 임하는 자세를 키워나간다.
- 2. 상사의 의중과 대세가 가는 방향에 따라 어떻게 분석해야할지 고민한다. -잘모르는 경우 이것저것 닥치는 데로 분석기법을 총동원하여 상사가 원하는 결과에 근접한 경우의 결과물을 제출한다. 단, 주의할점은 어려운 분석은 절대 안된다는걸 숙지한다.
- 3. 되도록이면 고난이도의 분석을 자제한다. -잘못했다가 설명도 안될뿐더러 이상하게 받아들여질시에는 그에 대한 책임으로 옷벗어야 될지도 모르는 Risk가 따른다.
- 4. 데이터가 그렇다는 식의 실언은 두번 다시 하지 않는다. - 데이터의 문제라고 했다가 괜히 결과의 책임을 지지않는 무뇌한으로 찍힐수가 있다. 가끔은 무능력하다는 말도 듣는다.
- 5. 결과를 해석할 시에 통계적인 언어보다는 되도록 경영 경제적인 언어를 쓰며 이를 연마 하기 위해 끊임없이 연습하고 습득한다.
  -만약에 그러한 언어 습득이 힘들시에는 간단한 도표를 통해 의사를 전달하고 말없이 회의에 참석한다.
- 6. 감히 P_value에 대해 이해 시키려고 하지 않는다. - 그러다가 잘난 척한다는 말을 들을 뿐아니라 괜히 내풀에 열받아 씩씩 대기 쉽다.
- 7. output을 보지 않고도 결과에 대해 막연하게 말하는 능력을 키워야 한다. 거기에 덧붙여서 결과가 말한것과 상반되게 나왔을 경우 이를 적당한 이유로 결과를 뒤집는 것도 동시에 연습한다.
- 8. 숫자의 결과를 말하듯 직설적으로 결과를 말하지 않으며 또한 그 결과에 운운하지 않는다. -엑셀로 편집하면 별로 좋아보이지 않는 결과도 좋아보인다. 파워포인트면 더 좋다.
- 9. 학생때 배우고 통계상담을 하면서 익혔던 방법론들과 통계패키지를 쓰는 법위에 엑셀과 파워포인트, 훌륭한 색감을 표현하는 기법을 엎어쓴다.
- 10. 분석을 하면서도 늘 겸손의 자세로 하나도 모른다는 식의 맨트를 섞어 가며 일을 한다.
일반적인 직장인들이 꼭 알아야만 할 통계적 지식
- 1. 자신이 담당하고 있는 분야의 데이터 소스
- 2. 합, 총합, 부분합, 평균, 가중평균, 부분비율, 증가율 등 가장 기초적인 통계적개념의 이해 : 합, 평균, 비율, 증가율, 퍼센트와 퍼센트포인트, NPV와 IRR 계산법, 빈도수에 관련한 개념들, percentile 개념, 변수의 종류와 가장 기본적인 핸들링 방법…
- 3. 위 2항의 각 개념들을 (어떤 방식으로든) 산출하는 방법
- 4. 산출된 수치를 table 과 graph 로 표현하는 방법
- 5. 산출된 수치를 해석하여 보고서를 작성하고 이를 설명하는 방법
- 만약 저에게 초보직장인을 대상으로 통계적 지식을 강의하라고 한다면 이런 범위를 벗어나지 않고 강의할 것 같습니다.
데이터 과학자는 왜 좋은 스토리텔러가 되어야 하는가
- 핵심문제를 정의할 수 있을 정도로 비즈니스를 이해해야 한다.
- 비즈니스에 영향을 미칠 수 있는 요소에 대한 깊은 이해가 있어야 한다.
- 구할 수 있는 데이터에 기초해서, 다양한 관점에서 실증적으로 탐구해야 한다 : 고객의 관점, 제3자의 관점, 의사결정자의 관점, 공급자의 관점 등
- - 데이터로부터 통찰력을 잘 끄집어내기 위해 다양한 시각화를 잘 사용해야 한다.
- 초기가설을 세우기 전에 어떤 장애물이 있을지 짐작해봐야 한다.
- 제시된 해결책이 끼칠 비즈니스에서의 영향력에 대해 이야기해야 한다. 청중이 이끌리지 않는 스토리는 의미 없다. (조직에 영향을 미칠 핵심요소로서 데이터 이야기)
- 고객의 눈높이에 맞게 이야기해야 한다.
구글 포토의 인종차별 논란
- 검색 데이터가 축적됨에 따라, 알고리즘도 검색 엔진 사용자들이 갖고 있는 편견을 그대로 반영하게 된 것입니다. 기계가 사용자들의 편견을 학습하고, 이에 따라 광고를 더 노출시켜 다시 사용자들의 편견을 강화하는 악순환이 생겨나는 것이죠. 또한 여성 사용자에게는 급여가 적은 일자리 광고가 더 많이 뜬다는 연구 결과도 있습니다.

Real name:

E-Mail:

Enter your comment:

Please fill all the letters into the box to prove you're human. P S R M Q Please keep this field empty:

Subscribe to comments

Data Mind

Discussion