영화 태그라인의 감성과 흥행 분석 모델 아웃라인
1. 프로젝트 개요
- 목표: 영화 tagline 텍스트 데이터를 기반으로 감성을 분석하고, 영화의 흥행 여부(revenue) 또는 관객 평점(vote_average)과의 관계를 탐구.
- 분석 질문:
- 태그라인의 감성과 흥행 여부와의 연관성 알아보기
- 긍정적/부정적 감성을 가진 태그라인과 관객 평점의 연관성 알아보기
- 태그라인과 추가 피처(예: popularity, budget)를 결합해 흥행 성과를 예측할 수 있을 것인지?
- 데이터 활용: tagline, revenue, vote_average, budget, popularity.
2. 데이터 준비
1) 데이터 수집 및 확인
- 필요한 피처:
- 텍스트 데이터: tagline.
- 수치 데이터: revenue, vote_average, budget, popularity.
- 데이터 확인: 데이터 크기, 결측값 확인, 변수 요약 통계 출력.
2) 데이터 정제
- 결측값 처리:
- tagline 결측값을 "No Tagline"으로 대체하거나 해당 영화 제외.
- revenue와 vote_average 결측값 제거.
- 텍스트 정제:
- 대소문자 통일
- 불필요한 특수문자 및 숫자 제거
- Stopwords 제거
- Lemmatization 적용
3) 텍스트 벡터화
- 텍스트 데이터 전처리:
- TF-IDF로 텍스트를 수치화.
- NLP 감성 분석 도구 사용하여 태그라인의 감성 점수 생성.
- 감성 점수 범위 예: -1(부정적) ~ 1(긍정적).
3. 데이터 탐색 및 변수 분포 확인
1) 태그라인 감성 점수의 분포 시각화
- 히스토그램과 박스플롯으로 감성 점수 분포 확인.
- 태그라인이 주로 긍정적/부정적/중립적 감성을 가지는지 확인.
2) 주요 변수 분포 확인
- 수치형 변수(revenue, vote_average, budget, popularity) 분포 확인:
- 히스토그램, 커널 밀도 추정(KDE) 그래프.
- revenue나 budget이 스케일 차이가 클 경우 로그 적용.
4. 상관관계 분석
1) 감성 점수와 흥행/평점 간 상관관계 확인
- 감성 점수와 revenue/vote_average 간 상관계수 계산.
- 감성 점수 분포를 수익 구간별로 나누어(예: 상위 10%, 중위 50%) 평균 비교.
2) 감성 점수와 추가 변수 간 상관관계 탐구
- 감성 점수와 budget, popularity 간의 상관관계 확인.
- 다중 상관 분석으로 주요 변수 간 연관성 파악.
5. 이상치 탐지 및 처리
1) 이상치 탐지
- 수익(revenue) 및 평점(vote_average) 이상치 탐지:
- Z-Score 기반 극단값 식별
- 감성 점수 이상치 탐지:
- 매우 낮거나 높은 점수(±1 경계값) 확인.
2) 이상치 처리
- 이상치가 유의미한 데이터라면 제거 대신 분리하여 별도 분석.
- 이상치가 데이터 오류인 경우 삭제 또는 대체.
6. 모델 설계
1) 감성 점수와 흥행/평점 간 회귀 모델
- 모델 유형: 선형 회귀, XGBoost, LightGBM 등.
- 입력 변수:
- 감성 점수 + 추가 피처(budget, popularity).
- 출력 변수:
- revenue (수익 예측) 또는 vote_average (평점 예측).
2) 태그라인 기반 감성 분류 모델
- 모델 유형: 로지스틱 회귀, SVM, Neural Networks.
- 출력 변수: 긍정적/부정적/중립적 감성 분류.
3) 모델 학습 및 검증
- 데이터 분할: 훈련/검증/테스트 세트(70:15:15).
- 교차 검증 적용(k-fold).
7. 모델 평가
1) 회귀 모델 평가 지표
- RMSE
2) 분류 모델 평가 지표
- Accuracy, F1-score.
- ROC-AUC 곡선으로 감성 분류 성능 확인.
8. 결과 해석 및 시각화
1) 주요 결과 시각화
- 감성 점수와 흥행 성과(수익/평점) 간의 관계 그래프.
- 상관계수 히트맵.
- Feature Importance 시각화.
2) 분석 결과 해석
- 긍정적 감성이 높은 영화가 흥행 성공 가능성이 높은지 해석.
- 추가 피처가 모델 성능에 미친 영향 논의.
9. 추가 확장 탐구 주제
- 태그라인과 영화 장르 간 감성 패턴 탐구.
- 태그라인과 관객 리뷰 감성 간 상관관계 분석.
'AIchemist' 카테고리의 다른 글
| 아이디어톤 발표 - 영화 수익과 관련된 피처 분석 (0) | 2024.12.23 |
|---|---|
| 아이디어톤 아웃라인 (0) | 2024.12.20 |
| [10주차] Discuss Question (0) | 2024.11.25 |
| [10주차] 텍스트 분석 (2) (1) | 2024.11.25 |
| [9주차] Discuss Question (0) | 2024.11.18 |