[8주차] Discuss Question

AIchemist

양윤서_Ewha 2024. 11. 11. 16:31

1. K-means 알고리즘의 단계별 작동 원리를 설명하고, 초기 중심점 선택이 결과에 미치는 영향(초기 중심점을 어떻게 선택할 수 있는지 등을 포함하기)

k개의 초기 중심점 선택 > 데이터 포인트 할당 > 중심점 업데이트 > 소속 변경 없거나 반복 횟수 완료 시 종료

초기 중심점의 선택은 최종 군집화 결과에 큰 영향을 준다. 잘못된 중심점으로 시작할 경우 비대칭적이거나 데이터 특성을 잘 반영하지 못할 수 있음. > 신뢰성이 떨어짐

중심점이 데이터 밀도가 낮은 영역에 있을 경우 작은 군집으로 묶이거나 이상치가 포함될 수 있음

특정 분야에서 해당 데이터의 특성을 미리 알고 있어서 이를 초기 중심점 지정에 활용하면 정확도가 개선될 수 있음

2. DBSCAN의 주요 특징과 장단점? 이 알고리즘이 K-means와 비교하여 어떤 상황에서 더 유리?

밀도 기반 군집화. 입실론 반경 내 최소 데이터 개수 설정을 통해 밀도가 높은 지역을 기준으로 군집을 구성

장점: 데이터의 분포가 복잡하고 비대칭적일 때. 군집의 모양에 제약이 없음. 노이즈를 처리할 수 있어 실질적 데이터 분석에 유리

단점: 고차원 데이터일 경우 수행 속도가 느림. 모든 데이터가 동일한 밀도를 가진다고 가정하여, 밀집도가 큰 데이터에서는 잘 작동하지 않을 수 있음

비교 : 데이터가 복잡한 형태를 가지거나 노이즈가 많은 경우 매우 유리함. K-means는 군집의 개수와 형태가 예측 가능하고 원형 구조일 때 효과적임.

3. 군집화 결과를 해석하면 어떻게 활용할 수 있을지 프로젝트를 구상 ex) 고객 데이터를 활용한 유형화, 관광지 특성별 분류 등

교통량 예측 : 도시 교통 데이터를 군집화하여 시간대와 장소에 따른 교통량을 분석할 수 있음.

성격 유형 : 테스트를 통해 성격 유형을 분류하고 이를 마케팅에 활용할 수 있음. 또는 커뮤니티와 관련된 사업에서 사용자들을 같은 군집으로 묶을 수 있음.

AIchemist.v3

머신러닝, 정보통신, 위상수학 등을 공부합니다.

네트워크, 데이터, 파이썬머신러닝완벽가이드, 정보통신, 미분방정식, 통신기술, 파이썬, 머신러닝, 인터넷,

AIchemist.v3