1. LDA 기반 토픽 모델링에서 토픽 수(k)를 조절하면 어떤 영향을 미칠까? 그리고 적절한 k 값을 결정하는 방법에는 무엇이 있을까?k값이 너무 작을 때: 문서의 다양성 제대로 반영하지 못함.여러 주제가 하나로 합쳐짐. 주요 주제들 간 차이를 충분히 드러내지 못함k값이 너무 클 때: 지나치게 세분화된 토픽이 생성되며 의미가 없는 토픽이 있을 수 있음. 과적합 가능성이 커짐여러 k값을 테스트한 후 score가 가장 높은 k값 선택하기. 모델의 일반화 성능이 높고 토픽 내 단어 간의 일관성이 높아야 함. 2. 코사인 유사도를 이용해 문서 유사도를 계산할 때, 문서 길이가 결과에 영향을 미칠까? 그 이유는 무엇일까?문서 길이는 벡터의 크기임. 코사인 유사도는 두 벡터 간의 방향성을 기준으로 유사도를 계산하..