Differences

This shows you the differences between two versions of the page.

--- blog:easy_random_forest [2020/04/01 01:21] – [설명하기 좋다] prgram
+++ blog:easy_random_forest [2025/07/07 14:12] (current) – external edit 127.0.0.1
@@ Line 35: / Line 35: @@
 {{ :blog:draft:pasted:20200331-185001.png }}
-가장 좋은 방법은 모든 가능한 나무를 그린 후에 데이터를 잘 설명하는 것을 고르는 것이겠다. 하지만 이는 변수의 수, 데이터의 수가 많아지면 거의 불가능한 일이기 때문에 ''욕심쟁이Greedy'' (귀차니즘) 방법을 사용한다. 가장 잘 나누는 변수 -> 그 다음 변수 -> 그다음 변수... 해서 결론이 나올 때까지 반복하여 나무를 그리는 것이다.
+가장 좋은 방법은 모든 가능한 나무를 그린 후에 데이터를 잘 설명하는 것을 고르는 것이겠다. 하지만 이는 변수의 수, 데이터의 수가 많아지면 거의 불가능한 일이기 때문에 가장 잘 나누는 변수 -> 그 다음 변수 -> 그다음 변수... 해서 결론이 나올 때까지 반복하여 나무를 그리는 방법을 사용한다. 단계별로 당장의 최선을 찾아간다는 의미로 ''욕심쟁이Greedy'' 방법이라고 한다.
 {{ :blog:draft:pasted:20200331-185012.png }}
@@ Line 83: / Line 83: @@
 그 전에 미리 알아두어야 할 것은, 모든 머신러닝 방법은 Trade-off 관계가 있다는 것이다. 모든 문제에 무조건 다 잘 들어맞는 모형은 아직까지는 세상에 존재하지 않는다는 것을 알아야 한다. 성능이 좋은 모형은 대부분 복잡한 방법을 사용하고, 계산 시간이 늘어나거나 설명하기가 어려워진다. 반대로 간단한 모형은 계산이 빠르거나 설명이 쉬우나 성능이 못 미친다. 이 점을 염두하고 실제 풀고자 하는 문제와 목적에 맞는 모형을 사용하는 것이다.
+> 성능이 좋다(잘 맞춤) <-> 사람이 이해하기 쉬움, 계산이 빠름
 아래의 장단점도 특정 문제나 목적에 따라서 달라질 수 있기 때문에 분석가들이 모형 선택에 고민을 하는 것이다.
@@ Line 94: / Line 96: @@
 보통의 비즈니스 문제에서는 모형의 사용자나 의사결정자가 이해할 수 있는 모형을 쓰는 것이 좋기도 하고, 어떤 변수들이 어떻게 영향을 미치는지 설명이 가능한 것이 모형의 성능보다 더 유용한 경우가 많다.
-랜덤포레스트는 의사결정자에게 설명하기에 수식을 안쓰고도 '의사결정나무를 무작위로 많이 만들어서 평균 투표하는 것'이라는 상대적으로 간단한 설명을 할 수 있고,  분류에 쓰이는 몇 가지 방법 중에서, 설명하기 쉬운 편이다.
+랜덤포레스트는 의사결정자에게 설명하기에 수식을 안쓰고도 '의사결정나무를 무작위로 많이 만들어서 평균 투표하는 것'이라는 상대적으로 간단한 설명을 할 수 있고,  분류에 쓰이는 몇 가지 방법 중에서 설명하기 쉬운 편이다.
@@ Line 115: / Line 117: @@
-===== 단점은 없니? =====
+===== 단점은 없나? =====
 모든 모형에는 단점이 있다. 위의 장점들도 어떤 문제나 상황에서는 틀린 말이 되는 경우도 많다.
@@ Line 145: / Line 147: @@
 ''되도록 모형에 대한 질문보다 변수와 데이터에 대한 질문을 해보도록 하자''
 ===== Reference =====
-[[data_analysis:random_forest|]] 수식이 가미된 매운맛 버전
+[[data_analysis:random_forest|]] 수식있는 매운맛 버전
 An Introduction to Statistical Learning,  Gareth M. James 外, Springer, 2014
 The Elements of Statistical Learning,  Trevor Hastie 外, Springer, 2001