2019년 11월 11일 월요일

2018 빅콘테스트 게임유저 이탈 예측 :: (2) 전처리

2018 빅콘테스트 게임유저 이탈 예측

전처리

데이터 구조 확인

  • train_label
>  str(train_label)






  • train_activity
>  str(train_activity)


























  • train_payment
>  str(train_payment)








  • train_party
>  str(train_party)











  • train_guild
>  str(train_guild)







  • train_trade
>  str(train_trade)











변수 생성 및 전처리

  • 아이템을 받은 횟수, 아이템을 준 횟수, 길드 가입 여부, 파티 플레이 횟수 변수 생성
  • 생성한 변수와 train_activity, train_label, train_payment 변수를 결합
  • 데이터에 음수 값을 없애고 과적합을 막기 위해 정규화를 진행
            normalize = (x - min(x)) / (max(x) - min(x))

EDA

label별 특징을 보기 위해 label을 기준으로 데이터를 결합후 합을 구하고 그래프 확인

levels값이  순서대로 돼있지 않아 예쁘게 보이기 위해 week month month2 retained
순으로 변경 후 출력


아이템 홍문 경험치와 접속일수 같이 label별로 특징이 뚜렷한 변수들도 있지만 그렇지 않은 변수들이 더 많았고 week와 retained은 특징이 뚜렷한 반면에 month와 2month는 특징이 뚜렷하지 않아 분류하기 어려움이 있을것으로 예상된다

댓글 없음:

댓글 쓰기