전체 글 21

[9주차] 텍스트 분석

NLP (National Language Processing) : 머신이 인간의 언어를 해석하는 데 더 중점을 두고 기술을 발전하기 위해 통계학과 다양한 딥러닝 기술들을 적용하여 연구하는 분야텍스트 분석자연어처리의 결과물인 언어모델을 활용하여 텍스트 형태로 된 비정형 텍스트에서 고객의 경향성이나 선호도 등 유의미한 정보를 얻어내기 위한 분석 기법텍스트 분류감성 분석텍스트 요약텍스트 군집화01 텍스트 분석 이해머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있다. 따라서 비정형 데이터에서 피처 형태로 추출하고 추출된 피처에 숫자값을 부여할 수 있어야  한다.텍스트 사전 준비 작업 (텍스트 전처리) : 클렌징, 대/소문자 변경, 특수문자 삭제, 토큰화, 텍스트 정규화피처 벡터화 / 추출 : 가공..

AIchemist 2024.11.18

[8주차] Discuss Question

1. K-means 알고리즘의 단계별 작동 원리를 설명하고, 초기 중심점 선택이 결과에 미치는 영향(초기 중심점을 어떻게 선택할 수 있는지 등을 포함하기)k개의 초기 중심점 선택 > 데이터 포인트 할당 > 중심점 업데이트 > 소속 변경 없거나 반복 횟수 완료 시 종료초기 중심점의 선택은 최종 군집화 결과에 큰 영향을 준다. 잘못된 중심점으로 시작할 경우 비대칭적이거나 데이터 특성을 잘 반영하지 못할 수 있음. > 신뢰성이 떨어짐중심점이 데이터 밀도가 낮은 영역에 있을 경우 작은 군집으로 묶이거나 이상치가 포함될 수 있음특정 분야에서 해당 데이터의 특성을 미리 알고 있어서 이를 초기 중심점 지정에 활용하면 정확도가 개선될 수 있음 2. DBSCAN의 주요 특징과 장단점? 이 알고리즘이 K-means와 비교..

AIchemist 2024.11.11

[8주차] 군집화

01 K-평균 알고리즘 이해K-평균군집화에서 가장 일반적으로 사용됨군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트들을 선택, 다시 중심점을 이동하는 프로세스 반복적으로 수행장점단점일반적인 군집화에서 가장 많이 활용쉽고 간결거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어짐반복 횟수가 많을 수록 수행 시간이 매우 느려짐몇 개의 군집을 선택해야 할지 가이드가 어려움군집화용 데이터 생성기make_blobs() : 개별 군집의 중심점과 표준 편차 제어 기능이 추가make_classification() : 노이즈를 포함한 데이터를 만드는 데 유..

AIchemist 2024.11.11