2019년 11월 5일 화요일

2018 빅콘테스트 게임유저 이탈 예측 :: (1) 개요 및 문제설명

2018 빅콘테스트 게임유저 이탈 예측


개요


대회 문제

  • 유저들의 게임 활동정보를 이용하여 향후 게임 서비스에서 이탈하는 시점 예측하기

대회문제

이탈예측

  • 고객 관계 관리(Customer Relation Management, CRM) 분야에서 중요하게 다루는 문제
  • 비용 효율적 신규 고객 유입을 위해 필요한 비용 > 기존 고객 유지에 필요한 비용)
  • 정확한 예측이 근본적으로 어려움
            - 저마다 다른 욕구 및 선호도
            - 데이터에서 확인 불가능한 외적인 문제로 인한 이탈 
            - 빠른 변화 
            - 이탈에 대한 기준 모호


분석대상

Blade & Soul

문제 설명


데이터



데이터 규모

  • 학습 데이터 : (계정 아이디기준) 10만 명의 게임 활동 데이터

  • 평가 데이터 : (계정 아이디 기준) 4만 명의 게임 활동 데이터

레이블 및 이탈 기준

  • 이탈 기준 : 4주 이상 게임 미접속
  • 제공 데이터 시점 이후 12주 동안의 접속이력으로 판단
  • 레이블 : 총 4개 클래스로 구분
            -  Week : 1주 이내 이탈
            -  Month : 2~4주 이내 이탈
            -  2Month : 5~8주 이내 이탈
            -  Retained : 잔존

    데이터 종류

    • 주요 활동 정보 : 게임 내에서 수행하는 주요 활동량을 유저별로 1주일 단위로 집계
    • 결제 정보 : 사용자가 게임 활동을 위해 결제한 정보를 1주일 단위로 집계
    • 사회 관계 정보 : 유저 간에 상호 작용 및 사회 관계에 대한 정보 (사회 관계 정보에는 이탈 예측 대상자가 아닌 유저들도 포함되어 있음)

    제공 파일 종류

    • train_label.csv : 학습데이터의 레이블 정보




    • train_activity.csv, test_activity.csv : 유저의 인게임 활동 정보를 일주일 단위로 집계한 정보









    • train_payment.csv, test_activity.csv : 유저별 주간 결제 금액을 집계한 파일





    • train_party.csv, test_party.csv : 유저간 파티 구성 관계를 집계한 파일











    • train_guild.csv, test_guild.csv : 문파별 문파원 목록을 집계한 파일




    • train_trade.csv, test_trade.csv : 유저간 1:1 거래 내역을 집계한 파일













    데이터 보안

    • 개인 정보 보호를 위해 데이터 전처리 후 제공됨
            -  모든 계정 아이디는 해싱을 통해 마스킹 처리
            -  모든 통계량은 표준화(standardization)를 통해 실제값을 알 수 없게 변환
                𝑥𝑛𝑒𝑤 = (𝑥𝑜𝑙𝑑 − 𝜇𝑥) / 𝜎𝑥 ,(𝝁 𝒙 : 𝑚𝑒𝑎𝑛 𝑜𝑓 𝑥, 𝝈 𝒙 : 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑑𝑒𝑣𝑖𝑎𝑡𝑖𝑜𝑛 𝑜𝑓 𝑥)

    Appendix

    • 레이블 부여 예시


    위 내용은 2018 빅콘테스트 Analysis 분야 챔피언리그 문제 설명회 자료에서 발췌했습니다

    댓글 없음:

    댓글 쓰기