AIchemist

아이디어톤 아웃라인

양윤서_Ewha 2024. 12. 20. 07:14

영화 수익과 평점 간의 관계 분석 모델 아웃라인


1. 프로젝트 개요

  • 목표: 영화의 흥행 수익(revenue)과 관객 평점(vote_average) 간의 관계를 분석하여, 평점이 흥행 성공에 얼마나 영향을 미치는지 탐구.
  • 분석 질문:
    1. 높은 평점을 받은 영화는 높은 수익을 올릴 가능성이 더 큰가?
    2. 평점과 함께 다른 변수(budget, popularity, runtime)가 수익과의 관계에 영향을 미치는가?
  • 데이터 활용: revenue, vote_average, budget, popularity, runtime.

2. 데이터 준비

1) 데이터 수집 및 확인

  • 필요한 피처:
    • 수치 데이터: revenue, vote_average, budget, popularity, runtime.
  • 데이터 확인:
    • 데이터 크기, 결측값 확인, 변수 요약 통계 출력.
  •  

2) 데이터 정제

  • 결측값 처리:
    • revenue, vote_average와 같은 주요 변수에 결측값이 있으면 해당 행 삭제.
    • budget, popularity, runtime 변수는 평균값 또는 중앙값으로 보완.

3) 데이터 변환

  • 수익(revenue) 로그 변환:
    • 수익 값의 분포가 왜곡되어 있다면 로그 변환(Log1p)을 통해 정규성을 확보.
    • 변환 전후의 데이터 분포를 그래프로 비교.

3. 데이터 탐색 및 변수 분포 확인

1) 주요 변수 분포 분석

  • revenue, vote_average, budget, popularity, runtime의 히스토그램과 커널 밀도 추정(KDE) 그래프를 통해 데이터 분포 확인.
  • 평점(vote_average)이 특정 값에 집중되었는지(예: 평균에 치우침) 확인.

2) 변수 간 관계 시각화

  • 평점(vote_average)과 수익(revenue)의 관계를 산점도로 시각화.
    • 로그 변환된 수익 데이터로도 그래프 작성.
  • 예산(budget), 인기(popularity), 상영 시간(runtime)과의 관계도 추가로 확인.

4. 상관관계 분석

1) 상관관계 계산

  • Pearson/Spearman 상관계수를 계산해 변수 간 관계를 정량적으로 분석.
    • 주요 변수: vote_average, revenue, budget, popularity, runtime.
  • 상관계수를 히트맵으로 시각화해 상관성이 높은 변수 확인.

2) 평점 구간별 수익 차이

  • 평점을 구간별로 나누어(예: 0-5, 5-7.5, 7.5-10) 평균 및 중앙값을 비교.
  • ANOVA 또는 t-검정을 통해 구간별 차이가 통계적으로 유의미한지 검증.

5. 이상치 탐지 및 처리

1) 이상치 탐지

  • 수익, 평점, 예산 등에서 극단적인 값 탐지:
    • 박스플롯을 활용한 IQR 기반 분석.
    • Z-Score 계산으로 이상치 식별.
  • 영화 특성상 대형 흥행작이나 블록버스터의 큰 예산은 분석에서 제외하지 않을 수도 있음.

2) 이상치 처리

  • 이상치를 제거하거나, 분석에서 별도로 다룰 그룹으로 분리.

6. 모델 설계

1) 회귀 분석 모델 설계

  • 모델 유형: 선형 회귀, Random Forest Regressor, XGBoost, LightGBM.
  • 입력 변수:
    • 독립 변수: vote_average, budget, popularity, runtime.
  • 출력 변수:
    • 종속 변수: revenue (로그 변환된 값).

2) 데이터 분할 및 검증

  • 데이터 분할: 훈련/검증/테스트 세트(70:15:15).
  • 교차 검증(k-fold) 적용으로 모델 안정성 평가.

3) 변수 중요도 평가

  • 회귀 모델에서 각 변수의 기여도(Feature Importance) 확인.
  • 평점(vote_average)의 중요도 분석.

7. 모델 평가 및 해석

1) 평가 지표

  • RMSE(평균 제곱근 오차), MAE(평균 절대 오차), R²(결정 계수).
  • 로그 변환된 수익으로 학습한 경우, 지표를 역변환하여 실제 수익 기준으로 평가.

2) 결과 시각화

  • 실제 vs. 예측 수익 비교 그래프.
  • 모델이 잘 학습한 영역(예: 높은 수익 영화)과 성능이 낮은 영역 분석.

8. 추가 분석 및 확장

평점과 예산 간의 중재 효과 분석

  • 예산에 따라 평점이 수익에 미치는 영향을 비교.
  • 예산이 높은 영화에서 평점이 더 큰 영향을 미치는지 여부 확인.

 

처음 구상은 이거였으나 전에 NLP 미적용 문제로 감성 분석을 하지 않는 주제로 재선정!!

2024.12.20 - [AIchemist] - 아이디어톤 아웃라인2

 

아이디어톤 아웃라인2

영화 태그라인의 감성과 흥행 분석 모델 아웃라인1. 프로젝트 개요목표: 영화 tagline 텍스트 데이터를 기반으로 감성을 분석하고, 영화의 흥행 여부(revenue) 또는 관객 평점(vote_average)과의 관계를

learning-yys.tistory.com