AIchemist
[7주차] Discuss Question
양윤서_Ewha
2024. 11. 4. 16:17
1. PCA에서 왜 변동성이 큰 방향을 선택해 차원 축소를 진행할까?
데이터를 가장 잘 설명하는 방향이 데이터의 분산이 최대인 방향이다. 그 방향을 따라 차원 축소를 진행한다. 변동성이 큰 방향(분산이 큰 방향)을 선택하는 이유는 그 방향이 데이터의 정보량이 많기 때문이다. 다양한 값을 가짐으로써 더 많은 정보가 있다.
2. 어떤 상황에서 PCA를 선택하고 어떤 상황에서 LDA를 선택하는 것이 적합할까?
PCA는 비지도 학습에 적합하며 데이터의 변동성을 유지하는 데에 사용된다. 클래스 정보가 없는 데이터에서 데이터를 설명하는 패턴을 추출하고 싶을 때 사용한다. 이미지 압축 또는 텍스트 주제 추출. 분산에 기반해 차원을 축소하기 때문에 데이터가 가지고 있는 분포와 변화 방향을 찾는데 적합하다.
LDA는 지도 학습 방식에 적합하며 클래스를 가진 데이터에 사용된다. 각 클래스 간의 분리를 최대로 할 수 있는 저차원 공간을 찾는다. 여러 클래스 간의 차이를 극대화하여 데이터 간의 차이점을 강조하고, 클래스 내부의 차이점은 줄인다.
3. 차원축소에서 고윳값과 고윳벡터의 역할은 무엇일까?
고윳값이 큰 순서대로 고윳벡터를 선택하여 주성분을 정의하고, 이 주성분을 통해 데이터를 저차원 공간으로 축소한다.
고윳값은 각 주성분 벡터가 데이터의 분산을 설명하는 정도이다. 고윳값이 클수록 그에 대응하는 고윳벡터 방향이 데이터의 분산을 많이 설명하게 된다. 고윳벡터는 주성분 축을 정의한다.