blog:easy_pca

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
blog:easy_pca [2020/05/14 13:53] – [분산을 최대로 하는 선형결합] prgramblog:easy_pca [2025/07/07 14:12] (current) – external edit 127.0.0.1
Line 244: Line 244:
  
 가장 큰 차이점이라고 할 수 있는 것은, 라쏘나 릿지 회귀에서는 정답 데이터가 포함되는 지도학습 방법에 사용되는 것이고, 주성분분석은 정답 데이터가 없이 변수들 간의 관계만을 보는 비지도학습 이라는 것이다. 예측을 더 잘하기 위한 방법과 변수의 특성을 보전하는 방법의 차이라고 생각해도 좋을 것 같다. 가장 큰 차이점이라고 할 수 있는 것은, 라쏘나 릿지 회귀에서는 정답 데이터가 포함되는 지도학습 방법에 사용되는 것이고, 주성분분석은 정답 데이터가 없이 변수들 간의 관계만을 보는 비지도학습 이라는 것이다. 예측을 더 잘하기 위한 방법과 변수의 특성을 보전하는 방법의 차이라고 생각해도 좋을 것 같다.
 +
 +또한 주성분분석은 모형에 사용되는 주성분들이 무상관uncorrelated인 것도 차이점이라고 할 수 있다.
 ===== Key Takeaways ===== ===== Key Takeaways =====
 지금까지 차원의 문제, 그리고 이를 해결하기 위한 주성분분석에 대해서 살펴보았다. 지금까지 차원의 문제, 그리고 이를 해결하기 위한 주성분분석에 대해서 살펴보았다.
Line 249: Line 251:
 1) 차원이 늘어남에 따라 여러가지 문제가 생긴다. (과적합, 다중공선성, 회소행렬 등) 1) 차원이 늘어남에 따라 여러가지 문제가 생긴다. (과적합, 다중공선성, 회소행렬 등)
 2) 주성분분석은 분산을 최대로 하는 선형결합들을 찾는 것이다. 2) 주성분분석은 분산을 최대로 하는 선형결합들을 찾는 것이다.
-3) 선형결합들 중 원래 변수들의 분산을 가장 근접하게 설명하는 개수만큼 다른 모형 적합을 위해서 사용한다. +3) 모형에 사용되는 주성분들이 상관관계가 없어 다중공선성 문제를 해결할 수 있다. 
-4) 중심화centering이 필요하고, 측도scale 에 민감하다.+4) 선형결합들 중 원래 변수들의 분산을 가장 근접하게 설명하는 개수만큼 다른 모형 적합을 위해서 사용한다. 
 +5) 중심화centering이 필요하고, 측도scale 에 민감하다.
  
 차원이 크면 여러가지 문제가 생길 수 있기 때문에, 분석가와의 미팅에서 차원축소를 위해 어떤 기법들을 사용했는지, 왜 이런방법을 사용한 것인지 의문을 가져보도록 하자. 차원이 크면 여러가지 문제가 생길 수 있기 때문에, 분석가와의 미팅에서 차원축소를 위해 어떤 기법들을 사용했는지, 왜 이런방법을 사용한 것인지 의문을 가져보도록 하자.
  • blog/easy_pca.1589464400.txt.gz
  • Last modified: 2025/07/07 14:12
  • (external edit)