기획,분석가가 알아야 할 사람에 대한 사실:계단형정책

사람을 위한 서비스와 마케팅을 기획하는 기획자,
사람이 만드는 데이터를 분석하고 사람에게 설명해야 하는 분석가를 위한
'사람에 대한 사실'에 대해서 살펴보자.

우리의 기획 의도와는 다르게 사람들이 행동하는 경우가 많다. 좋은 의도를 가지고 정책을 시행했지만, 행위자들이 자신의 이익을 위해 행동하려는 인센티브를 가지는 가운데 전혀 다른 결과 (심지어는 더 나쁜 결과)가 생길 수 있다. 특히 정책이 경계값을 가지는 계단형일 때 이런 일이 생길 수 있는데, 이는 데이터를 수집하고 분석할 때에도 염두해 두어야 할 점이라고 할 수 있다. 두 가지 예를 살펴보도록 하자.

«데이터 분석의 힘»에는 일본의 자동차 연비 규제에 대해서 설명하고 있다. 자동차 연비 규제를 하는 이유는 에너지 효율을 높여서 석유를 아끼고 탄소 배출을 줄이는 등 환경에 대한 고려 때문일 것이다. 하지만 정책을 어떻게 하느냐에 따라 의도와 다른 결과를 낼 수도 있게 되는 예가 되겠다.

일본은
첫번째, 자동차의 무게에 따라 규제치가 정해졌다. 즉, 가벼운 차일수록 엄격한 규제치를 만족시켜야 하고, 무거운 차일수록 규제치가 완화된다.
두번째, 규제가 계단식으로 변한다.

가로축은 자동차의 무게, 계단형의 그래프는 자동차의 무게에 따라 변하는 연비규제다. 막대그래프는 출시되는 자동차의 분포인데, 그래프에서 보듯이 연비규제가 변하는 무게에 자동차들의 분포가 몰려 있는 것을 볼 수 있다. 규제가 바뀜에 따라 분포가 변한다.

Fig. 1: 데이터 분석의 힘,p136

즉, 각 계단의 경계 왼쪽에 차들이 몰려 있다. 자동차의 무게에 따라 연비 규제가 완화된다는 점을 파악한 기업들이 자동차의 무게를 조금씩 늘렸다는 것.

위 그래프와 아래 그래프를 비교해 보면, 무게를 세분화해서 더 강화한 정책이 오히려 자동차의 무게를 증가시키는 결과를 만들어냈다.

자동차의 무게가 늘어나는 것은 환경을 생각하는 연비 정책과는 반대의 방향이고, 사고시의 위험도 늘어난다고 한다.

책에서는 비슷한 예로 덴마크의 소득세 누진 구간에 따라 임금이 경계선을 중심으로 모인다는 사실도 보여주고 있다. 임금은 노동시간이나 소득을 바꾸는 데 자신이 조절할 수 있는 정도에 한계가 있어서 경계선 양쪽으로 쏠리는 경향이 있다고 설명하고 있다.

데이터 분석 쪽에서 비슷한 예를 찾자면 p-해킹을 들 수 있을 것이다.

지금은 통계학 시간이 아니기 때문에 자세한 설명은 생략하지만, p-값value이란 어떤 현상에 대한 가설을 검정하기 위해서 사용하는 수치이다. 예를 들어 신약의 효과가 있는지를 확인해보기 위해서 기본적인 상태(효과가 없다)와 검정하고 싶은 가설(효과가 있다) 을 놓고, 실험 결과의 통계치를 계산해서 보통 0.05를 기준으로 그보다 낮은 값이 나올 때 '효과가 없다는 증거가 없다'는 결론을 내게 된다.

보통 이 0.05라는 값을 기준으로 이 실험이 성공적이냐 아니냐를 판단하기 때문에, 연구자들은 0.05 라는 숫자를 신주단지처럼 모시는 경향이 있다.

Fig. 1: 인터넷에는 이런 Meme들이 수없이 많다. (사진: https://www.pinterest.com/pin/421860690079986682/)

하지만 p-value 라는 개념을 도입한 R.A. 피셔가 의도한 것과는 다르게, 무조건 0.05 이하만 나오면 된다는 인식이 생겨 연구결과를 발표할 수 있는지 없는지를 따지는 경계값 처럼 되어버렸다.

0.05를 맞추기 위해 데이터를 임의로 빼거나 넣는 등 조작하는 p-해킹hacking 이라는 현상이 생겼다. 데이터를 원하는 값이 나올 때까지 '고문'한다고도 한다.

아래 그래프에서 이론적 p-값의 분포(검정색)과 실제 발표된 연구(빨간색)을 보면, 0.05의 왼쪽 근처에 많이 몰려 있는 것을 볼 수 있다.이것도 계단식 규제의 한 예가 될 수 있을 것이다.
Fig. 1: 출처:Reference참고

실험결과를 합리적으로 해석하려는 의도와는 다르게 행위자들이 숫자를 조작(?)하려는 경향을 보이는 이 예시 또한 원래 의도와는 다르게, 행위자의 이익을 위해 생기는 하나의 의도치 않은 결과라고 할 수 있겠다. 작게는 후속 연구를 위해 연구를 재현하려는 사람들에게, 크게는 연구윤리에 해가 되는 나쁜 결과를 가져올 수도 있다.

미국통계학회에서 이러한 p-value에 대한 오남용을 막기 위해서 이러한 성명서를 내었다.

편법이라고 생각할 수도 있겠지만, 인간은 주어진 상황에서 최대의 이익을 내려고 하는게 당연한 것이다. 사람들이 기획자의 의도와는 다르게 자신들의 이득을 위해서 행동한다는 사실을 잊지 말도록 하자.

기획자

하나의 문제를 해결하기 위해 단순하게 정책을 결정하지 않도록 해야 한다.
현상을 만들어 내는 구성요소(인풋과 아웃풋, 그리고 그 주위의 경쟁관계, 협조관계, 영향자 등)와 그 사이의 상호관계성을 고려해서, 정책이 실행되었을 때 어떤 일이 생길지 시나리오를 생각해 보는 것이 필요하겠다. 가능하면 작은 규모의 테스트와 빠른 피드백을 통한 수정이 좋을 것이다.

분석가

보통 계단식의 정책이 있다는 사전 지식을 가지고 있다면 그 계단의 경계값들로 변수 Binning 을 할 것이다. 첫번째 예에서 인위적으로 늘어난 무게를 변수에 반영하지 못하면 결과에 영향이 생길 수 밖에 없을 것이다. 항상 분포를 살펴보고 이상점은 없는지, 왜 이런 현상이 생기는 것인지, 어디에 경계값을 정하는 것이 맞는 것인지 고민해보는 시간을 가져야 결과가 왜곡되는 현상을 방지할 수 있을 것이다. 데이터 탐색의 중요성을 잊지 말도록 하자.

Fig. 1: 설문조사를 받을 때도 유의해야 한다. 출처:인터넷 어딘가..

데이터 분석의 힘, 이토 고이치로 저, 전선영 역, 인플루엔셜, 2018
1등의 통찰, 히라이 다카시, 이선희 역, 다산3.0, 2016
Head, Megan L. et.al. “The Extent and Consequences of P-Hacking in Science”. PLOS Biology. 13 (3), 2015 링크

One can examine whether a set of findings contains evidential value by examining the distribution of p-values, particularly those between 0 and 0.05. “Evidential value” refers to whether or not the published evidence for a specific hypothesis suggests that the effect size is nonzero.

When the effect size for a studied phenomenon is zero, every p-value is equally likely to be observed. The expected distribution of p-values under the null hypothesis is uniform (Black line, Fig. 1A and Fig. 2A), such that p<0.05 will occur 5% of the time, p<0.04 will occur 4% of the time, and so on. On the other hand, when the true effect size is nonzero, the expected distribution of p-values is exponential with a right skew [39–42] (Black line, Fig. 1B and Fig. 2B). When the true effect is strong, researchers are more likely to obtain very low p-values (e.g., p<0.001) than moderately low p-values (e.g., 0.01), and less likely still to obtain nonsignificant p-values (p > 0.05) [41]. So, as the true effect size increases the p-curve is more right skewed [41].

Don't worry, P-hacking

More

2021/09/24 15:30
2020/06/18 20:34
2020/06/07 23:03
2020/06/04 00:30
2020/05/28 19:29
2020/05/12 18:03
2020/05/07 18:27
2020/05/01 01:54
2020/04/29 19:52
2020/04/20 20:12
2020/04/17 00:23
2020/04/15 16:21
2020/04/11 10:41
2020/04/08 15:49
2020/04/01 18:43
2020/04/01 09:55
2020/03/21 22:43
2020/03/20 20:53
2020/03/15 20:11
2020/03/07 16:35
2020/03/07 13:46
2020/03/02 01:09
2020/02/29 13:52
2020/02/29 13:52
2020/02/29 13:52
2020/02/29 13:52
2020/02/29 13:52
2020/02/29 13:49
2020/02/16 18:11
2020/02/06 21:58
Enter your comment:
T Q W N​ O