전체 글 21

[7주차] Discuss Question

1. PCA에서 왜 변동성이 큰 방향을 선택해 차원 축소를 진행할까?데이터를 가장 잘 설명하는 방향이 데이터의 분산이 최대인 방향이다. 그 방향을 따라 차원 축소를 진행한다. 변동성이 큰 방향(분산이 큰 방향)을 선택하는 이유는 그 방향이 데이터의 정보량이 많기 때문이다. 다양한 값을 가짐으로써 더 많은 정보가 있다.2. 어떤 상황에서 PCA를 선택하고 어떤 상황에서 LDA를 선택하는 것이 적합할까?PCA는 비지도 학습에 적합하며 데이터의 변동성을 유지하는 데에 사용된다. 클래스 정보가 없는 데이터에서 데이터를 설명하는 패턴을 추출하고 싶을 때 사용한다. 이미지 압축 또는 텍스트 주제 추출. 분산에 기반해 차원을 축소하기 때문에 데이터가 가지고  있는 분포와 변화 방향을 찾는데 적합하다.LDA는 지도 학..

AIchemist 2024.11.04

[7주차] 차원 축소

01 차원 축소 개요차원 축소란? 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것차원이 증가할수록데이터 포인트 간의 거리가 멀어진다희소한 구조를 가지게 된다(수백 개 이상의 피처로 구성된 데이터 세트의 경우) 예측 신뢰도가 떨어진다피처가 많을 경우 개별 피처간에 상관관계가 높을 가능성이 크다 > 다중 공선성 문제 > 예측 저하차원 축소의 장점더 직관적으로 데이터를 해석할 수 있다3차원 이하의 차원 축소를 통해 시각적으로 데이터를 압축해서 표현학습에 필요한 처리 능력을 줄일 수 있다피처 선택 (feature selection) : 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거하고, 주요 피처만 선택하는 것피처 추출(feature extractio..

AIchemist 2024.11.04

[6주차] Discuss Question

1. 피처 간의 상관관계가 매우 높은 경우 다중공선성 문제가 발생한다. 다중공선성이 회귀 모델에 미치는 영향은 무엇이며, 이를 어떻게 해결할 수 있을까?회귀계수의 불안정성 : 작은 데이터 변화에도 계수가 크게 변함분산 증가 : 회귀계수의 표준 오차가 증가함. 신뢰구간이 넓어져 추정의 정확도가 떨어짐해석의 어려움 : 각 변수의 독립적인 영향을 파악하기 어려움. 모델의 설명력이 떨어짐.해결: 상관관계가 높은 변수들을 하나의 변수로 만들어 차원 축소, 데이터들을 정규화, 스케일을 조정하는 방법 등이 있다.2. 왜 회귀 계수값이 크면 과적합이 발생할 가능성이 높아질까?다항 회귀의 차수를 높일수록 학습 데이터에만 너무 맞춘 학습이 이뤄져서 과적합이 발생한다. 이를 해결하기 위해서 학습된 모델이 이전에 보지 못한 ..

AIchemist 2024.10.28