Differences
This shows you the differences between two versions of the page.
Next revision | Previous revision | ||
blog:easy_random_forest [2020/04/01 00:55] – created prgram | blog:easy_random_forest [2025/07/07 14:12] (current) – external edit 127.0.0.1 | ||
---|---|---|---|
Line 35: | Line 35: | ||
{{ : | {{ : | ||
- | 가장 좋은 방법은 모든 가능한 나무를 그린 후에 데이터를 잘 설명하는 것을 고르는 것이겠다. 하지만 이는 변수의 수, 데이터의 수가 많아지면 거의 불가능한 일이기 때문에, 가장 잘 나누는 변수 -> 그 다음 변수 -> 그다음 변수... 해서 결론이 나올 때까지 반복하는 방법을 사용한다. | + | 가장 좋은 방법은 모든 가능한 나무를 그린 후에 데이터를 잘 설명하는 것을 고르는 것이겠다. 하지만 이는 변수의 수, 데이터의 수가 많아지면 거의 불가능한 일이기 때문에 가장 잘 나누는 변수 -> 그 다음 변수 -> 그다음 변수... 해서 결론이 나올 때까지 반복하여 나무를 그리는 방법을 사용한다. |
{{ : | {{ : | ||
Line 44: | Line 44: | ||
* 그래서 결혼여부를 처음 의사결정의 가지치기 변수로 택한다. | * 그래서 결혼여부를 처음 의사결정의 가지치기 변수로 택한다. | ||
- | 이를 좀 더 그럴듯한 표현으로 바꾸면, 각 변수로 데이터를 둘로 나눴을 때, 가장 '' | + | 이를 좀 더 그럴듯한 표현으로 바꾸면, 각 변수로 데이터를 둘로 나눴을 때, 가장 '' |
단계별로 가장 불순도가 많이 줄어드는 변수들을 계속 선택하면 위의 그림과 같은 의사결정 나무가 만들어진다. | 단계별로 가장 불순도가 많이 줄어드는 변수들을 계속 선택하면 위의 그림과 같은 의사결정 나무가 만들어진다. | ||
Line 83: | Line 83: | ||
그 전에 미리 알아두어야 할 것은, 모든 머신러닝 방법은 Trade-off 관계가 있다는 것이다. 모든 문제에 무조건 다 잘 들어맞는 모형은 아직까지는 세상에 존재하지 않는다는 것을 알아야 한다. 성능이 좋은 모형은 대부분 복잡한 방법을 사용하고, | 그 전에 미리 알아두어야 할 것은, 모든 머신러닝 방법은 Trade-off 관계가 있다는 것이다. 모든 문제에 무조건 다 잘 들어맞는 모형은 아직까지는 세상에 존재하지 않는다는 것을 알아야 한다. 성능이 좋은 모형은 대부분 복잡한 방법을 사용하고, | ||
+ | |||
+ | > 성능이 좋다(잘 맞춤) <-> 사람이 이해하기 쉬움, 계산이 빠름 | ||
아래의 장단점도 특정 문제나 목적에 따라서 달라질 수 있기 때문에 분석가들이 모형 선택에 고민을 하는 것이다. | 아래의 장단점도 특정 문제나 목적에 따라서 달라질 수 있기 때문에 분석가들이 모형 선택에 고민을 하는 것이다. | ||
Line 94: | Line 96: | ||
보통의 비즈니스 문제에서는 모형의 사용자나 의사결정자가 이해할 수 있는 모형을 쓰는 것이 좋기도 하고, 어떤 변수들이 어떻게 영향을 미치는지 설명이 가능한 것이 모형의 성능보다 더 유용한 경우가 많다. | 보통의 비즈니스 문제에서는 모형의 사용자나 의사결정자가 이해할 수 있는 모형을 쓰는 것이 좋기도 하고, 어떤 변수들이 어떻게 영향을 미치는지 설명이 가능한 것이 모형의 성능보다 더 유용한 경우가 많다. | ||
- | 랜덤포레스트는 의사결정자에게 설명하기에 수식을 안쓰고도 ' | + | 랜덤포레스트는 의사결정자에게 설명하기에 수식을 안쓰고도 ' |
Line 115: | Line 117: | ||
- | ===== 단점은 없니? ===== | + | ===== 단점은 없나? ===== |
모든 모형에는 단점이 있다. 위의 장점들도 어떤 문제나 상황에서는 틀린 말이 되는 경우도 많다. | 모든 모형에는 단점이 있다. 위의 장점들도 어떤 문제나 상황에서는 틀린 말이 되는 경우도 많다. | ||
Line 145: | Line 147: | ||
'' | '' | ||
===== Reference ===== | ===== Reference ===== | ||
+ | [[data_analysis: | ||
An Introduction to Statistical Learning, | An Introduction to Statistical Learning, | ||
The Elements of Statistical Learning, | The Elements of Statistical Learning, |