
1. K-means 알고리즘의 단계별 작동 원리를 설명하고, 초기 중심점 선택이 결과에 미치는 영향(초기 중심점을 어떻게 선택할 수 있는지 등을 포함하기)

k개의 초기 중심점 선택 > 데이터 포인트 할당 > 중심점 업데이트 > 소속 변경 없거나 반복 횟수 완료 시 종료
초기 중심점의 선택은 최종 군집화 결과에 큰 영향을 준다. 잘못된 중심점으로 시작할 경우 비대칭적이거나 데이터 특성을 잘 반영하지 못할 수 있음. > 신뢰성이 떨어짐
중심점이 데이터 밀도가 낮은 영역에 있을 경우 작은 군집으로 묶이거나 이상치가 포함될 수 있음
특정 분야에서 해당 데이터의 특성을 미리 알고 있어서 이를 초기 중심점 지정에 활용하면 정확도가 개선될 수 있음
2. DBSCAN의 주요 특징과 장단점? 이 알고리즘이 K-means와 비교하여 어떤 상황에서 더 유리?
밀도 기반 군집화. 입실론 반경 내 최소 데이터 개수 설정을 통해 밀도가 높은 지역을 기준으로 군집을 구성
장점: 데이터의 분포가 복잡하고 비대칭적일 때. 군집의 모양에 제약이 없음. 노이즈를 처리할 수 있어 실질적 데이터 분석에 유리
단점: 고차원 데이터일 경우 수행 속도가 느림. 모든 데이터가 동일한 밀도를 가진다고 가정하여, 밀집도가 큰 데이터에서는 잘 작동하지 않을 수 있음
비교 : 데이터가 복잡한 형태를 가지거나 노이즈가 많은 경우 매우 유리함. K-means는 군집의 개수와 형태가 예측 가능하고 원형 구조일 때 효과적임.
3. 군집화 결과를 해석하면 어떻게 활용할 수 있을지 프로젝트를 구상 ex) 고객 데이터를 활용한 유형화, 관광지 특성별 분류 등
교통량 예측 : 도시 교통 데이터를 군집화하여 시간대와 장소에 따른 교통량을 분석할 수 있음.
성격 유형 : 테스트를 통해 성격 유형을 분류하고 이를 마케팅에 활용할 수 있음. 또는 커뮤니티와 관련된 사업에서 사용자들을 같은 군집으로 묶을 수 있음.
'AIchemist' 카테고리의 다른 글
| [9주차] Discuss Question (0) | 2024.11.18 |
|---|---|
| [9주차] 텍스트 분석 (0) | 2024.11.18 |
| [8주차] 군집화 (0) | 2024.11.11 |
| [7주차] Discuss Question (0) | 2024.11.04 |
| [7주차] 차원 축소 (0) | 2024.11.04 |