1. 결정 트리에서 엔트로피와 지니 계수를 사용할 때, 각각 어떤 유형의 데이터나 상황에서 더 적합할까?
엔트로피(정보 이득 지수) : 다른 값/같은 값으로 구별되므로, '종류'를 나눌 수 있는 데이터에서 적합할 것 같다. 많은 클래스가 있는 경우.
지니 계수 : '정도'를 파악할 수 있는 데이터에서 적합할 것 같다. 원래 경제학의 불평등 지수에서 쓰였듯, 크기와 상대빈도 등의 수치를 계산할 수 있는 데이터. 계산이 더 간단하고 빨라서 큰 데이터 세트에 이용.
...차이를 잘 모르겠음!!
2. 앙상블 학습에서 보팅, 배깅, 부스팅 같은 방법으로 여러 분류기를 결합하면 보통 개별 모델보다 성능이 향상된다. 하지만 가끔 이런 복합 모델이 오히려 단일 모델보다 성능이 떨어질 때도 있는데 이런 상황은 언제 발생할 수 있을까? 또 이를 방지하려면 어떤 점을 주의해야 할까?
약한 분류기들을 모아 단점을 보완시키는 것인데, 개별 모델이 모두 성능이 낮고 서로를 보완할 수 없을 때 오히려 성능이 떨어질 것이다. 개별 모델들이 모두 같은 오류를 범한다면 복합 모델의 성능은 개선되지 않을 것이다. 과적합이 일어나게 되는 경우도 마찬가지이다. 개별 모델이 독립적이지 못할 때. 과적합이 일어나지 않는 것이 중요.
3. 분류 데이터가 숫자가 아닐 경우에는 어떻게 모델링을 해야될까? 즉, 이미지, 텍스트 등의 비정형 데이터일 경우 분류를 어떻게 해야될까?
비정형 데이터의 경우 딥러닝을 이용하는 것이 더 좋은 성능을 나타낸다. 앙상블로 이러한 데이터들을 분류하고자 한다면, 앙상블의 과정을 통과할 수 있는 데이터로 만들기 위해 수치화하는 등 많은 전처리 과정을 거쳐야 할 것이다. 특징을 수치형 데이터로 추출하는 방법.
'AIchemist' 카테고리의 다른 글
| [5주차] 회귀 (선형 회귀/과적합/과소적합/릿지/라쏘/엘라스틱넷/로지스틱/회귀트리) (0) | 2024.10.07 |
|---|---|
| [4주차]분류(2) (XGBoost/LightGBM/베이지안 최적화/스태킹 앙상블) (0) | 2024.09.30 |
| [3주차] 분류(1) (결정 트리/앙상블 학습/랜덤 포레스트/GBM) (0) | 2024.09.23 |
| [2주차] Discussion Question (0) | 2024.09.08 |
| [2주차] 평가 (정확도 / 이진 분류 / 정밀도 / 재현율 / F1 / ROC AUC) (2) | 2024.09.08 |