손가락(R, Python, SAS …)을 보려하지 말고 달(데이터 분석, 통계…)을 봐라.
도구에는 이 분야의 선구자들의 노하우가 숨겨져 있기도 하다. 예를 들어 Tidy Data로 알려진 `dplyr`, `ggplot2`, `reshape2` 등의 패키지 셋은 정확하고 간단하게 데이터를 전처리하고 시각화하는 어떤 문법이 존재할 수 있음을 알려주며, 실제 여러 실무에서 널리 사용되고 있다는 사실이 그것을 증명하고 있다.
개인적으로 트위터 분석 등 대부분의 SNS 텍스트, 네트워크 분석을 신뢰하지 않는 이유중에 하나는 ‘대조군’이 대부분 누락되어 있어 과학이라 말하기 어렵기 때문이다.대조군을 설정하기 너무 어려운가? 그럼 그냥 랜덤으로 선택하라!
고객분석의 경우 클러스터링이 교과서 처럼 될 수 있다는 환상을 버리는게 중요하고, 시간이 가면서 고객은 변하고 그 스펙트럼은 매우 다양하다는 것을 이해할 필요가 있으며 같은 기본가정을 기반으로 분석을 수행하는게 맞다고 생각한다. 이런 관점에서 고객을 베이지언적인 관점으로 바라보는게 때로는 적절하다고 본다.
분석가 본인이 보기에 실패한 분석 결과라도 애정있게 정리하고 공유하면 여러 동료들의 예리한 눈으로 부족한 부분, 실수한 부분, 보완한 부분들을 찾을 가능성이 높다. 그럼 다시 그 가설은 살아날 기회를 얻게 된다.자신의 생각을 모두 보여준다는 것에 대해 부끄럽게 생각하지 말고, 공유하고 논의하라!
단적인 예로 outlier detection이라든지, anomaly detection류의 문제는 희소한 이벤트 때문에 모집단에 근접한 데이터량이 필요하지만 대부분 모델링, 통계분석을 기반으로 하는 의사 결정에 모집단의 모든 정보가 필요하지는 않다. 오히려 데이터 노이즈와 에러로 인해 전처리를 하는데 많은 시간이 소요되기 십상이다. 모든 값을 이용한 평균값과 샘플링을 이용한 평균값의 차이가 그리 크지 않다는 간단한 실험만으로도 간접적으로 확인이 가능할 것이다. 물론 데이터가 많을수록 정확도가 향상되는 모델링 기법들이 존재하는데, 이 두 모델의 차이와 의미를 이해하고 빅 데이터 기반 방법론을 활용하는게 효과적일 것이다.
데이터 분석 과정이나 결과를 주변과 자주 빠르게 공유하는 행위는 올바른 분석을 위해서 매우 필요한 행동이다.
많은 경우 EDA의 종말은 ‘이미 알고 있는 사실을 데이터로 확인한 결과’가 되는 경우가 많다. 이런 경우 의뢰인에게 `인지적 편안함`만 주고 분석은 끝나게 된다. 이는 대부분 초보 분석가 분들이 가지는 많은 고민중에 하나인데, 이러한 결과가 나오는 원인중에 하나는 대부분 교과서적인 분석만 해봤고, 봐왔기 때문이다. 하나의 분석 주제라도 이를 해결해 나가는 방식은 매우 다양하고 그 결과의 깊이도 다를 수 있다. 고수와 초보의 차이는 여기서 어떻게 한 발자국 더 나아가는지에 따라 갈라진다. 필자가 하나의 팁을 알려주자면 해결하고자 하는 문제를 `Formula` 형태로 정의해 보는 것이다. 이와 같이 정의해보면 단면적으로 문제를 보는 것보다 입체적인 사고를 할 수 있게 되는데, 흡사 위 `Formula`를 `Regression`의 형태로 보는 것만으로도 상당히 많은 인사이트 단서를 발굴해 낼 수 있다. 물론 이를 위해서는 최소 `Regression`에 대해서는 예측 뿐만아니라 추론영역 혹은 이를 활용한 다양한 분석 방식에 통달해 있어야 될 것이다.
필자가 매년초에 주기적으로 하는 일중에 하나는 기초통계학 책을 탐독하는것이다. 신기하게도 매년 그 의미의 깊이가 다르게 느껴지고 문구 하나하나가 이전에 탐독을 했을때와는 다르게 느껴지는 것을 경험한다.
대부분 어떠한 전공 커리큘럼을 따라서 공부하는것에 매우 큰 부담을 안고 있다. 이는 이전에 자신이 시간 투자하고 공부한 자신의 전공의 프레임에 빠져 있기 때문이라 생각한다. 능력있는 분석가가 되기 위해서는 사실 거의 체내화 되어 있어야 되는 개념(학문)들이 다수 존재하는데, 이를 위해 시간투자는 불가피하다. 게다가 개론서/소개서 몇권만으로 절대 익히기 어려운 개념들이 대다수여서 필자의 경우 커리큘럼 자체를 공부하라고 추천하곤 한다. 이는 개론서만으로 얻을 수 없는 해당 학문 응용의 지혜를 그 시간투자를 통해서 얻을 수 있기 때문이다. 단순히 교과서적인 분석만을 자신이 수행하고 있다고 한다면 잠시 업무를 내려놓고 여러 통계학 서적과 통계를 여러 다른 방식으로 활용한 방법론 책을 보길 추천하고, 이 과정을 확대하면 통계학 커리큘럼을 따라가게 되는 것이다.