AIchemist
아이디어톤 아웃라인
양윤서_Ewha
2024. 12. 20. 07:14
영화 수익과 평점 간의 관계 분석 모델 아웃라인
1. 프로젝트 개요
- 목표: 영화의 흥행 수익(revenue)과 관객 평점(vote_average) 간의 관계를 분석하여, 평점이 흥행 성공에 얼마나 영향을 미치는지 탐구.
- 분석 질문:
- 높은 평점을 받은 영화는 높은 수익을 올릴 가능성이 더 큰가?
- 평점과 함께 다른 변수(budget, popularity, runtime)가 수익과의 관계에 영향을 미치는가?
- 데이터 활용: revenue, vote_average, budget, popularity, runtime.
2. 데이터 준비
1) 데이터 수집 및 확인
- 필요한 피처:
- 수치 데이터: revenue, vote_average, budget, popularity, runtime.
- 데이터 확인:
- 데이터 크기, 결측값 확인, 변수 요약 통계 출력.
2) 데이터 정제
- 결측값 처리:
- revenue, vote_average와 같은 주요 변수에 결측값이 있으면 해당 행 삭제.
- budget, popularity, runtime 변수는 평균값 또는 중앙값으로 보완.
3) 데이터 변환
- 수익(revenue) 로그 변환:
- 수익 값의 분포가 왜곡되어 있다면 로그 변환(Log1p)을 통해 정규성을 확보.
- 변환 전후의 데이터 분포를 그래프로 비교.
3. 데이터 탐색 및 변수 분포 확인
1) 주요 변수 분포 분석
- revenue, vote_average, budget, popularity, runtime의 히스토그램과 커널 밀도 추정(KDE) 그래프를 통해 데이터 분포 확인.
- 평점(vote_average)이 특정 값에 집중되었는지(예: 평균에 치우침) 확인.
2) 변수 간 관계 시각화
- 평점(vote_average)과 수익(revenue)의 관계를 산점도로 시각화.
- 로그 변환된 수익 데이터로도 그래프 작성.
- 예산(budget), 인기(popularity), 상영 시간(runtime)과의 관계도 추가로 확인.
4. 상관관계 분석
1) 상관관계 계산
- Pearson/Spearman 상관계수를 계산해 변수 간 관계를 정량적으로 분석.
- 주요 변수: vote_average, revenue, budget, popularity, runtime.
- 상관계수를 히트맵으로 시각화해 상관성이 높은 변수 확인.
2) 평점 구간별 수익 차이
- 평점을 구간별로 나누어(예: 0-5, 5-7.5, 7.5-10) 평균 및 중앙값을 비교.
- ANOVA 또는 t-검정을 통해 구간별 차이가 통계적으로 유의미한지 검증.
5. 이상치 탐지 및 처리
1) 이상치 탐지
- 수익, 평점, 예산 등에서 극단적인 값 탐지:
- 박스플롯을 활용한 IQR 기반 분석.
- Z-Score 계산으로 이상치 식별.
- 영화 특성상 대형 흥행작이나 블록버스터의 큰 예산은 분석에서 제외하지 않을 수도 있음.
2) 이상치 처리
- 이상치를 제거하거나, 분석에서 별도로 다룰 그룹으로 분리.
6. 모델 설계
1) 회귀 분석 모델 설계
- 모델 유형: 선형 회귀, Random Forest Regressor, XGBoost, LightGBM.
- 입력 변수:
- 독립 변수: vote_average, budget, popularity, runtime.
- 출력 변수:
- 종속 변수: revenue (로그 변환된 값).
2) 데이터 분할 및 검증
- 데이터 분할: 훈련/검증/테스트 세트(70:15:15).
- 교차 검증(k-fold) 적용으로 모델 안정성 평가.
3) 변수 중요도 평가
- 회귀 모델에서 각 변수의 기여도(Feature Importance) 확인.
- 평점(vote_average)의 중요도 분석.
7. 모델 평가 및 해석
1) 평가 지표
- RMSE(평균 제곱근 오차), MAE(평균 절대 오차), R²(결정 계수).
- 로그 변환된 수익으로 학습한 경우, 지표를 역변환하여 실제 수익 기준으로 평가.
2) 결과 시각화
- 실제 vs. 예측 수익 비교 그래프.
- 모델이 잘 학습한 영역(예: 높은 수익 영화)과 성능이 낮은 영역 분석.
8. 추가 분석 및 확장
평점과 예산 간의 중재 효과 분석
- 예산에 따라 평점이 수익에 미치는 영향을 비교.
- 예산이 높은 영화에서 평점이 더 큰 영향을 미치는지 여부 확인.
처음 구상은 이거였으나 전에 NLP 미적용 문제로 감성 분석을 하지 않는 주제로 재선정!!
2024.12.20 - [AIchemist] - 아이디어톤 아웃라인2
아이디어톤 아웃라인2
영화 태그라인의 감성과 흥행 분석 모델 아웃라인1. 프로젝트 개요목표: 영화 tagline 텍스트 데이터를 기반으로 감성을 분석하고, 영화의 흥행 여부(revenue) 또는 관객 평점(vote_average)과의 관계를
learning-yys.tistory.com