[10주차] Discuss Question

AIchemist

양윤서_Ewha 2024. 11. 25. 01:40

1. LDA 기반 토픽 모델링에서 토픽 수(k)를 조절하면 어떤 영향을 미칠까? 그리고 적절한 k 값을 결정하는 방법에는 무엇이 있을까?

k값이 너무 작을 때: 문서의 다양성 제대로 반영하지 못함.여러 주제가 하나로 합쳐짐. 주요 주제들 간 차이를 충분히 드러내지 못함

k값이 너무 클 때: 지나치게 세분화된 토픽이 생성되며 의미가 없는 토픽이 있을 수 있음. 과적합 가능성이 커짐

여러 k값을 테스트한 후 score가 가장 높은 k값 선택하기. 모델의 일반화 성능이 높고 토픽 내 단어 간의 일관성이 높아야 함.

2. 코사인 유사도를 이용해 문서 유사도를 계산할 때, 문서 길이가 결과에 영향을 미칠까? 그 이유는 무엇일까?

문서 길이는 벡터의 크기임. 코사인 유사도는 두 벡터 간의 방향성을 기준으로 유사도를 계산하기 때문에 영향을 미치지 않음

간접적 영향: 짧은 문서는 단어 다양성이 적고, 긴 문서는 노이즈 가능성이 있음. 정규화와 TF-IDF를 활용해 해결할 수 있는 문제임.

3. 한글 문서 유사도 계산에서 동형어는 어떤 문제가 발생하고, 해결 방법에는 무엇이 있을까?

문맥에 따른 적절한 의미를 반영하지 못하면 유사도가 부정확해짐.

POS Tagging을 이용해 단어의 품사를 분석하고 분리함. 사전 작업으로 의도된 의미로 단어를 매핑함. 사용자 정의 단어 사전을 구축하는 방법도 있음.