AIchemist

[9주차] Discuss Question

양윤서_Ewha 2024. 11. 18. 16:39

1. 텍스트 분석은 말그대로 비정형 데이터인 텍스트를 분석하는 과정이다. 비정형 데이터(텍스트)에서 유의미한 정보를 뽑아내는 과정이 어떤 의미를 가질지 고민해보고 텍스트 분석을 활용한 서비스 하나를 간략하게 생각해봅시다

텍스트 분석을 통해 고객의 성향을 알고 맞춤 마케팅을 할 수 있다. 뉴스 기사 3줄 요약 등의 서비스를 제공할 수 있다. 방대한 양의 텍스트도 분석할 수 있다.

2. 교재에 텍스트 전처리 과정이 설명되어 있을 것이다. 텍스트가 한국어일 때 이 전처리 과정들이 어떻게 진행될지 생각해봅시다

어미 분석, 띄어쓰기, 동음이의어, 문맥에 따른 한자 단어 파악 등 과정이 필요할 것이다. 클렌징, 토크화, stopwords 제거, 텍스트 정규화, stemming lemmatization 등의 과정을 동일하게 거친다.

3. BOW의 피처 벡터화는 카운트 기반과 TF-IDF 두가지입니다. 카운트 기반 피처 벡터화의 한계를 TF-IDF가 어떻게 보완했는지 구체적으로 생각해봅시다

카운트 기반 피처 벡터화의 한계 : 문맥 정보 손실, 희소 행렬 문제, 중요 단어 구별 부족

보완점 : 단어 중요도 반영. 다너의 빈도와 역문서 빈도를 조합해 중요한 단어를 강조함. IDF를 통한 가중치 조정으로 희소 행렬 문제 완화. 모든 문서에 공통적으로 등장하는 단어, 불필요한 단어에 낮은 점수를 부여하여 문맥적 중요성을 반영한다.

   - TF-IDF(Term Frequency-Inverse Document Frequency)는 단어의 빈도(TF)와 역문서 빈도(IDF)를 조합하여 특정 문서에서 중요한 단어를 강조한다.
     - TF: 단어 빈도를 계산하여 자주 등장하는 단어에 높은 점수를 부여합니다.  
     - IDF: 전체 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하고 점수를 줄입니다.  

'AIchemist' 카테고리의 다른 글

[10주차] Discuss Question  (0) 2024.11.25
[10주차] 텍스트 분석 (2)  (1) 2024.11.25
[9주차] 텍스트 분석  (0) 2024.11.18
[8주차] Discuss Question  (2) 2024.11.11
[8주차] 군집화  (0) 2024.11.11