전체 글 21

[10주차] Discuss Question

1. LDA 기반 토픽 모델링에서 토픽 수(k)를 조절하면 어떤 영향을 미칠까? 그리고 적절한 k 값을 결정하는 방법에는 무엇이 있을까?k값이 너무 작을 때: 문서의 다양성 제대로 반영하지 못함.여러 주제가 하나로 합쳐짐. 주요 주제들 간 차이를 충분히 드러내지 못함k값이 너무 클 때: 지나치게 세분화된 토픽이 생성되며 의미가 없는 토픽이 있을 수 있음. 과적합 가능성이 커짐여러 k값을 테스트한 후 score가 가장 높은 k값 선택하기. 모델의 일반화 성능이 높고 토픽 내 단어 간의 일관성이 높아야 함. 2. 코사인 유사도를 이용해 문서 유사도를 계산할 때, 문서 길이가 결과에 영향을 미칠까? 그 이유는 무엇일까?문서 길이는 벡터의 크기임. 코사인 유사도는 두 벡터 간의 방향성을 기준으로 유사도를 계산하..

AIchemist 2024.11.25

[10주차] 텍스트 분석 (2)

05 감성 분석감성 분석(Sentiment Analysis)주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법소셜 미디어, 여론조사, 온라인 리뷰, 피드백 등문서 내 텍스트가 나타내는 주관적 단어와 문맥을 기반으로 감성 수치를 계산하는 방법긍정 감성 지수 / 부정 감성 지수지도 학습비지도 학습감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이터의 감성 분석을 예측일반적인 텍스트 기반의 분류와 거의 동일Lexicon이라는 감성 어휘 사전 이용용어와 문맥에 대한 다양한 정보를 가지고 있음 지도학습 기반 감성 분석 실습 - IMDB 영화평데이터의 피처id : 각 데이터의 idsentiment : 영화평의 Sentiment 결과 값. 1은 긍정, 0은 부정. target 데이터이다.review : 영화평의..

AIchemist 2024.11.25

[9주차] Discuss Question

1. 텍스트 분석은 말그대로 비정형 데이터인 텍스트를 분석하는 과정이다. 비정형 데이터(텍스트)에서 유의미한 정보를 뽑아내는 과정이 어떤 의미를 가질지 고민해보고 텍스트 분석을 활용한 서비스 하나를 간략하게 생각해봅시다텍스트 분석을 통해 고객의 성향을 알고 맞춤 마케팅을 할 수 있다. 뉴스 기사 3줄 요약 등의 서비스를 제공할 수 있다. 방대한 양의 텍스트도 분석할 수 있다.2. 교재에 텍스트 전처리 과정이 설명되어 있을 것이다. 텍스트가 한국어일 때 이 전처리 과정들이 어떻게 진행될지 생각해봅시다어미 분석, 띄어쓰기, 동음이의어, 문맥에 따른 한자 단어 파악 등 과정이 필요할 것이다. 클렌징, 토크화, stopwords 제거, 텍스트 정규화, stemming lemmatization 등의 과정을 동일하..

AIchemist 2024.11.18