Blogs
Facebook Posting Archive 20년 5월
2020-05-31 19:15:26 까지 총 73개 포스팅 Archived (누적 439개)
최신 Archive
20년 4월 Archive
20년 3월 Archive
20년 2월 Archive
최신 포스팅과 더 많은 소식은 Data.triviaz 좋아요, 팔로잉 해주세요
차원이 문제? 주성분분석? 회의에서 당당하게, 수식없이 알아보자
이전편:
랜덤포레스트가 뭐길래? 회의에서 당당하게, 수식없이 알아보자
라쏘? 로지스틱? 회의에서 당당하게, 수식없이 기초개념부터
인공신경망? 딥러닝? 회의에서 당당하게, 수식없이 알아보자
30명이면 된다고? 회의에서 당당하게, 설문조사를 알아보자.
'차원의 저주'라는 말을 들어보았을 것이다. 빅데이터를 강조하면서 수많은 데이터가 있게 되고 따라서 차원이 늘어나면서 생기는 여러가지 문제점들이 생긴다. 기계학습 분야에서 특성공학feature engineering 의 큰 목적 중 하나가 이런 고차원에 의한 문제점을 해결하기 위한 것이다.
차원의 문제가 무엇인지, 차원 감소에서 많이 쓰이는 주성분분석은 어떤 방식으로 해결하려고 하는 것인지를 살펴보도록 하자.
1) 차원이란 무엇인지, 왜 문제인지
2) 주성분분석의 배경
3) 주성분을 구하기 위한 기계학습의 셋팅 및 해석
4) 주의할 점
순으로 설명해 보도록 하겠다. 차원의 문제는 필연적으로 행렬과 선형대수와 연관이 되어 있다. 최대한 쉬운 설명을 해보도록 하겠다.
기획,분석가가 알아야 할 사람에 대한 사실:계단형정책
사람을 위한 서비스와 마케팅을 기획하는 기획자,
사람이 만드는 데이터를 분석하고 사람에게 설명해야 하는 분석가를 위한
'사람에 대한 사실'에 대해서 살펴보자.
우리의 기획 의도와는 다르게 사람들이 행동하는 경우가 많다. 좋은 의도를 가지고 정책을 시행했지만, 행위자들이 자신의 이익을 위해 행동하려는 인센티브를 가지는 가운데 전혀 다른 결과 (심지어는 더 나쁜 결과)가 생길 수 있다. 특히 정책이 경계값을 가지는 계단형일 때 이런 일이 생길 수 있는데, 이는 데이터를 수집하고 분석할 때에도 염두해 두어야 할 점이라고 할 수 있다. 두 가지 예를 살펴보도록 하자.
Discussion