분류 전체보기 21

아이디어톤 아웃라인

영화 수익과 평점 간의 관계 분석 모델 아웃라인1. 프로젝트 개요목표: 영화의 흥행 수익(revenue)과 관객 평점(vote_average) 간의 관계를 분석하여, 평점이 흥행 성공에 얼마나 영향을 미치는지 탐구.분석 질문:높은 평점을 받은 영화는 높은 수익을 올릴 가능성이 더 큰가?평점과 함께 다른 변수(budget, popularity, runtime)가 수익과의 관계에 영향을 미치는가?데이터 활용: revenue, vote_average, budget, popularity, runtime.2. 데이터 준비1) 데이터 수집 및 확인필요한 피처:수치 데이터: revenue, vote_average, budget, popularity, runtime.데이터 확인:데이터 크기, 결측값 확인, 변수 요약 ..

AIchemist 2024.12.20

아이디어톤 아웃라인2

영화 태그라인의 감성과 흥행 분석 모델 아웃라인1. 프로젝트 개요목표: 영화 tagline 텍스트 데이터를 기반으로 감성을 분석하고, 영화의 흥행 여부(revenue) 또는 관객 평점(vote_average)과의 관계를 탐구.분석 질문:태그라인의 감성과 흥행 여부와의 연관성 알아보기긍정적/부정적 감성을 가진 태그라인과 관객 평점의 연관성 알아보기태그라인과 추가 피처(예: popularity, budget)를 결합해 흥행 성과를 예측할 수 있을 것인지?데이터 활용: tagline, revenue, vote_average, budget, popularity.2. 데이터 준비1) 데이터 수집 및 확인필요한 피처:텍스트 데이터: tagline.수치 데이터: revenue, vote_average, budget,..

AIchemist 2024.12.20

[10주차] Discuss Question

1. LDA 기반 토픽 모델링에서 토픽 수(k)를 조절하면 어떤 영향을 미칠까? 그리고 적절한 k 값을 결정하는 방법에는 무엇이 있을까?k값이 너무 작을 때: 문서의 다양성 제대로 반영하지 못함.여러 주제가 하나로 합쳐짐. 주요 주제들 간 차이를 충분히 드러내지 못함k값이 너무 클 때: 지나치게 세분화된 토픽이 생성되며 의미가 없는 토픽이 있을 수 있음. 과적합 가능성이 커짐여러 k값을 테스트한 후 score가 가장 높은 k값 선택하기. 모델의 일반화 성능이 높고 토픽 내 단어 간의 일관성이 높아야 함. 2. 코사인 유사도를 이용해 문서 유사도를 계산할 때, 문서 길이가 결과에 영향을 미칠까? 그 이유는 무엇일까?문서 길이는 벡터의 크기임. 코사인 유사도는 두 벡터 간의 방향성을 기준으로 유사도를 계산하..

AIchemist 2024.11.25

[10주차] 텍스트 분석 (2)

05 감성 분석감성 분석(Sentiment Analysis)주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법소셜 미디어, 여론조사, 온라인 리뷰, 피드백 등문서 내 텍스트가 나타내는 주관적 단어와 문맥을 기반으로 감성 수치를 계산하는 방법긍정 감성 지수 / 부정 감성 지수지도 학습비지도 학습감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이터의 감성 분석을 예측일반적인 텍스트 기반의 분류와 거의 동일Lexicon이라는 감성 어휘 사전 이용용어와 문맥에 대한 다양한 정보를 가지고 있음 지도학습 기반 감성 분석 실습 - IMDB 영화평데이터의 피처id : 각 데이터의 idsentiment : 영화평의 Sentiment 결과 값. 1은 긍정, 0은 부정. target 데이터이다.review : 영화평의..

AIchemist 2024.11.25

[9주차] Discuss Question

1. 텍스트 분석은 말그대로 비정형 데이터인 텍스트를 분석하는 과정이다. 비정형 데이터(텍스트)에서 유의미한 정보를 뽑아내는 과정이 어떤 의미를 가질지 고민해보고 텍스트 분석을 활용한 서비스 하나를 간략하게 생각해봅시다텍스트 분석을 통해 고객의 성향을 알고 맞춤 마케팅을 할 수 있다. 뉴스 기사 3줄 요약 등의 서비스를 제공할 수 있다. 방대한 양의 텍스트도 분석할 수 있다.2. 교재에 텍스트 전처리 과정이 설명되어 있을 것이다. 텍스트가 한국어일 때 이 전처리 과정들이 어떻게 진행될지 생각해봅시다어미 분석, 띄어쓰기, 동음이의어, 문맥에 따른 한자 단어 파악 등 과정이 필요할 것이다. 클렌징, 토크화, stopwords 제거, 텍스트 정규화, stemming lemmatization 등의 과정을 동일하..

AIchemist 2024.11.18

[9주차] 텍스트 분석

NLP (National Language Processing) : 머신이 인간의 언어를 해석하는 데 더 중점을 두고 기술을 발전하기 위해 통계학과 다양한 딥러닝 기술들을 적용하여 연구하는 분야텍스트 분석자연어처리의 결과물인 언어모델을 활용하여 텍스트 형태로 된 비정형 텍스트에서 고객의 경향성이나 선호도 등 유의미한 정보를 얻어내기 위한 분석 기법텍스트 분류감성 분석텍스트 요약텍스트 군집화01 텍스트 분석 이해머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있다. 따라서 비정형 데이터에서 피처 형태로 추출하고 추출된 피처에 숫자값을 부여할 수 있어야  한다.텍스트 사전 준비 작업 (텍스트 전처리) : 클렌징, 대/소문자 변경, 특수문자 삭제, 토큰화, 텍스트 정규화피처 벡터화 / 추출 : 가공..

AIchemist 2024.11.18

[8주차] Discuss Question

1. K-means 알고리즘의 단계별 작동 원리를 설명하고, 초기 중심점 선택이 결과에 미치는 영향(초기 중심점을 어떻게 선택할 수 있는지 등을 포함하기)k개의 초기 중심점 선택 > 데이터 포인트 할당 > 중심점 업데이트 > 소속 변경 없거나 반복 횟수 완료 시 종료초기 중심점의 선택은 최종 군집화 결과에 큰 영향을 준다. 잘못된 중심점으로 시작할 경우 비대칭적이거나 데이터 특성을 잘 반영하지 못할 수 있음. > 신뢰성이 떨어짐중심점이 데이터 밀도가 낮은 영역에 있을 경우 작은 군집으로 묶이거나 이상치가 포함될 수 있음특정 분야에서 해당 데이터의 특성을 미리 알고 있어서 이를 초기 중심점 지정에 활용하면 정확도가 개선될 수 있음 2. DBSCAN의 주요 특징과 장단점? 이 알고리즘이 K-means와 비교..

AIchemist 2024.11.11

[8주차] 군집화

01 K-평균 알고리즘 이해K-평균군집화에서 가장 일반적으로 사용됨군집 중심점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트들을 선택, 다시 중심점을 이동하는 프로세스 반복적으로 수행장점단점일반적인 군집화에서 가장 많이 활용쉽고 간결거리 기반 알고리즘으로 속성의 개수가 매우 많을 경우 군집화 정확도가 떨어짐반복 횟수가 많을 수록 수행 시간이 매우 느려짐몇 개의 군집을 선택해야 할지 가이드가 어려움군집화용 데이터 생성기make_blobs() : 개별 군집의 중심점과 표준 편차 제어 기능이 추가make_classification() : 노이즈를 포함한 데이터를 만드는 데 유..

AIchemist 2024.11.11

[7주차] Discuss Question

1. PCA에서 왜 변동성이 큰 방향을 선택해 차원 축소를 진행할까?데이터를 가장 잘 설명하는 방향이 데이터의 분산이 최대인 방향이다. 그 방향을 따라 차원 축소를 진행한다. 변동성이 큰 방향(분산이 큰 방향)을 선택하는 이유는 그 방향이 데이터의 정보량이 많기 때문이다. 다양한 값을 가짐으로써 더 많은 정보가 있다.2. 어떤 상황에서 PCA를 선택하고 어떤 상황에서 LDA를 선택하는 것이 적합할까?PCA는 비지도 학습에 적합하며 데이터의 변동성을 유지하는 데에 사용된다. 클래스 정보가 없는 데이터에서 데이터를 설명하는 패턴을 추출하고 싶을 때 사용한다. 이미지 압축 또는 텍스트 주제 추출. 분산에 기반해 차원을 축소하기 때문에 데이터가 가지고  있는 분포와 변화 방향을 찾는데 적합하다.LDA는 지도 학..

AIchemist 2024.11.04