[2주차] Discussion Question
1. 각 평가 지표는 어떤 데이터 분석상황에서 적합할까? (F1 Score, ROC 곡선과 AUC)
F1 Score는 정밀도와 재현율이 치우치지 않고 둘 다 중요한 상황에서 적합하다. 정밀도는 FP, 재현율은 FN이 작을수록 높은 값을 가진다. 다시 말하자면 잘못된 양성 예측과 잘못된 음성 예측이 둘 다 적어야 하는 상황에 적합한데, 교재에 나온 것처럼 질병에 관한 예측이 있을 것이다. 또는 무언가를 예방하는 데에 큰 비용이 들어가는 분석 상황도 생각해 보았다. 태풍이나 해일, 지진 등 자연재해를 예측하고 대비할 때, 어떤 시설을 지어야 한다면 큰 비용이 들 것이다. 만약 피해를 입을 아주 확실한 지역만 대비를 한다면, 정밀도는 높아지겠지만 그 밖의 다른 지역은 큰 피해를 입을 것이다. 반대로 피해를 입을 가능성이 낮은 지역까지 모두 대비를 한다면, 피해는 낮아지겠지만 매우 큰 비용이 들어 손실을 입을 것이다. F1 Score는 잘못된 예측으로 인한 리스크가 큰 분석 상황에서 적합한 것 같다.
ROC - AUC도 F1과 비슷하게, 의학 분야의 분석 상황에서 적합한 것 같다. 실제 양성을 정확히 예측하는 것과, 실제 음석을 정확히 예측하는 것이 수치에 영향을 미치기 때문이다.
2. 피마 인디언 당뇨병 예측에서 제작한 모델 구조를 또 어떤 상황에서 그대로 적용해볼 수 있을까?
피마 인디언 당뇨병 예측에서는 당뇨의 다양한 요인 피처들을 분석하였다. 비슷하게, 여러 유전적이나 환경적 요인들이 영향을 미치는 질병을 예측하는 데에도 적용해 볼 수 있을 것이다. 0값인 피처가 있다면 평균값으로 대체해야 하므로, 만약 평균값으로 대체하였을 때 결과에 치명적인 오류가 생길 질병에는 적용하지 못한다. (질병 원인에 매우 명확한 피처가 있는 경우)
3. 정밀도와 재현율 트레이드 오프, 또 어떤 트레이드 오프 사례들이 있을까? (데이터분석 상황에서 실생활까지)
정밀도와 재현율 트레이드 오프 사례에는 사용자의 필기 인식에 따라 통과 여부가 결정되는 게임 등이 해당될 것 같다. 예를 들자면 닌텐도 게임의 '쿠킹 마마'에서, 사용자는 시간 내에 게임에서 요구하는 다양한 터치 입력을 해야 한다. 그런데 모든 입력을 맞다고 하면 게임의 난이도는 쉬워져 재미가 없을 것이고, 아주 정확한 입력을 요구한다면 통과하는 경우가 거의 없어질 것이다. 약간의 오차 범위를 포함하여 통과시켜야 하는데, 이러한 것은 정밀도와 재현율의 트레이드 오프라고 할 수 있을 것이다.
실생활의 트레이드 오프 사례에는 필립스 곡선이 있다. 인플레이션과 실업률의 상관관계에는 트레이드 오프가 있다는 것이다. 한 수치가 오르면, 다른 수치는 필연적으로 하락한다.
