AIchemist

아이디어톤 아웃라인2

양윤서_Ewha 2024. 12. 20. 07:02

영화 태그라인의 감성과 흥행 분석 모델 아웃라인


1. 프로젝트 개요

  • 목표: 영화 tagline 텍스트 데이터를 기반으로 감성을 분석하고, 영화의 흥행 여부(revenue) 또는 관객 평점(vote_average)과의 관계를 탐구.
  • 분석 질문:
    1. 태그라인의 감성과 흥행 여부와의 연관성 알아보기
    2. 긍정적/부정적 감성을 가진 태그라인과 관객 평점의 연관성 알아보기
    3. 태그라인과 추가 피처(예: popularity, budget)를 결합해 흥행 성과를 예측할 수 있을 것인지?
  • 데이터 활용: tagline, revenue, vote_average, budget, popularity.

2. 데이터 준비

1) 데이터 수집 및 확인

  • 필요한 피처:
    • 텍스트 데이터: tagline.
    • 수치 데이터: revenue, vote_average, budget, popularity.
  • 데이터 확인: 데이터 크기, 결측값 확인, 변수 요약 통계 출력.

2) 데이터 정제

  • 결측값 처리:
    • tagline 결측값을 "No Tagline"으로 대체하거나 해당 영화 제외.
    • revenue와 vote_average 결측값 제거.
  • 텍스트 정제:
    • 대소문자 통일
    • 불필요한 특수문자 및 숫자 제거
    • Stopwords 제거
    • Lemmatization 적용

3) 텍스트 벡터화

  • 텍스트 데이터 전처리:
    • TF-IDF로 텍스트를 수치화.
    • NLP 감성 분석 도구 사용하여 태그라인의 감성 점수 생성.
    • 감성 점수 범위 예: -1(부정적) ~ 1(긍정적).

3. 데이터 탐색 및 변수 분포 확인

1) 태그라인 감성 점수의 분포 시각화

  • 히스토그램과 박스플롯으로 감성 점수 분포 확인.
  • 태그라인이 주로 긍정적/부정적/중립적 감성을 가지는지 확인.

2) 주요 변수 분포 확인

  • 수치형 변수(revenue, vote_average, budget, popularity) 분포 확인:
    • 히스토그램, 커널 밀도 추정(KDE) 그래프.
    • revenue나 budget이 스케일 차이가 클 경우 로그 적용.

4. 상관관계 분석

1) 감성 점수와 흥행/평점 간 상관관계 확인

  • 감성 점수와 revenue/vote_average 간 상관계수 계산.
  • 감성 점수 분포를 수익 구간별로 나누어(예: 상위 10%, 중위 50%) 평균 비교.

2) 감성 점수와 추가 변수 간 상관관계 탐구

  • 감성 점수와 budget, popularity 간의 상관관계 확인.
  • 다중 상관 분석으로 주요 변수 간 연관성 파악.

5. 이상치 탐지 및 처리

1) 이상치 탐지

  • 수익(revenue) 및 평점(vote_average) 이상치 탐지:
    • Z-Score 기반 극단값 식별
  • 감성 점수 이상치 탐지:
    • 매우 낮거나 높은 점수(±1 경계값) 확인.

2) 이상치 처리

  • 이상치가 유의미한 데이터라면 제거 대신 분리하여 별도 분석.
  • 이상치가 데이터 오류인 경우 삭제 또는 대체.

6. 모델 설계

1) 감성 점수와 흥행/평점 간 회귀 모델

  • 모델 유형: 선형 회귀, XGBoost, LightGBM 등.
  • 입력 변수:
    • 감성 점수 + 추가 피처(budget, popularity).
  • 출력 변수:
    • revenue (수익 예측) 또는 vote_average (평점 예측).

2) 태그라인 기반 감성 분류 모델

  • 모델 유형: 로지스틱 회귀, SVM, Neural Networks.
  • 출력 변수: 긍정적/부정적/중립적 감성 분류.

3) 모델 학습 및 검증

  • 데이터 분할: 훈련/검증/테스트 세트(70:15:15).
  • 교차 검증 적용(k-fold).

7. 모델 평가

1) 회귀 모델 평가 지표

  • RMSE

2) 분류 모델 평가 지표

  • Accuracy, F1-score.
  • ROC-AUC 곡선으로 감성 분류 성능 확인.

8. 결과 해석 및 시각화

1) 주요 결과 시각화

  • 감성 점수와 흥행 성과(수익/평점) 간의 관계 그래프.
  • 상관계수 히트맵.
  • Feature Importance 시각화.

2) 분석 결과 해석

  • 긍정적 감성이 높은 영화가 흥행 성공 가능성이 높은지 해석.
  • 추가 피처가 모델 성능에 미친 영향 논의.

9. 추가 확장 탐구 주제

  • 태그라인과 영화 장르 간 감성 패턴 탐구.
  • 태그라인과 관객 리뷰 감성 간 상관관계 분석.

 

'AIchemist' 카테고리의 다른 글

아이디어톤 발표 - 영화 수익과 관련된 피처 분석  (0) 2024.12.23
아이디어톤 아웃라인  (0) 2024.12.20
[10주차] Discuss Question  (0) 2024.11.25
[10주차] 텍스트 분석 (2)  (1) 2024.11.25
[9주차] Discuss Question  (0) 2024.11.18