AIchemist
[6주차] Discuss Question
양윤서_Ewha
2024. 10. 28. 14:55
1. 피처 간의 상관관계가 매우 높은 경우 다중공선성 문제가 발생한다. 다중공선성이 회귀 모델에 미치는 영향은 무엇이며, 이를 어떻게 해결할 수 있을까?
- 회귀계수의 불안정성 : 작은 데이터 변화에도 계수가 크게 변함
- 분산 증가 : 회귀계수의 표준 오차가 증가함. 신뢰구간이 넓어져 추정의 정확도가 떨어짐
- 해석의 어려움 : 각 변수의 독립적인 영향을 파악하기 어려움. 모델의 설명력이 떨어짐.
해결: 상관관계가 높은 변수들을 하나의 변수로 만들어 차원 축소, 데이터들을 정규화, 스케일을 조정하는 방법 등이 있다.
2. 왜 회귀 계수값이 크면 과적합이 발생할 가능성이 높아질까?
다항 회귀의 차수를 높일수록 학습 데이터에만 너무 맞춘 학습이 이뤄져서 과적합이 발생한다. 이를 해결하기 위해서 학습된 모델이 이전에 보지 못한 시험 데이터를 넣어보거나, 차수를 줄이는 방법이 있다.