客户基本数据有3955条,16个特征维度,其中7个特征严重缺失,经过缺失值填补和
特征转换,最终的到3602条有效数据,以及筛选出10条相关性较高的特征。
Customer Profile Insights
描述性分析
特征分析
客户主要集中在男性群体,占比达
75.7%;说明我们更应注重男性
偏好的相关车型的业务发展。
客户年龄分布集中在3550岁,
峰值在40岁左右;说明客户集中
在中年人群,更适合推荐中年人
偏好的车型。
性别
年龄
教育程度
38.11%的客户是本科学历,
36.68%的客户是大专学历,
11.42%
博士级以上只占了3%左右;
Customer Profile Insights
特征分析
特征分析
客户在上海市(直辖市)的总数量是最
高的,达到15.96%,但是也和江苏省的
14.96%、山东省的14.72%
西省占比5%是最少的,在南北地区分布
来看,客户分布数量基本持平。
总占比达到50%左右。其中上海市占比
最高,达到34.36%,北京市排在第二,
达到了15.29%
省份
城市
品牌
79.6%的品牌来自于大众;根据工单一
级到三级的业务占比,主要都是集中在
配件以及订单问题,而且工单流转分配
效率较高。
职位
24.5%
21.23%
而事业单位或者正负官员占比是最少的,
不到1%;并且客户的职位呈现两级分化,
高层职位和低层职位占比相近。
行业
33.85%的客户都集中在电气、电源、仪
器制造行业。而其他行业。例如:家居、
建筑、汽车、政府、金融、教育等,比重
都差距不大,其中也有23%的人拒绝回答
自己从事的行业。
教育程度
47.5%的客户收入水平在65000元左右,
27.7%8-12万元;年收入5万元以下和
年收入在12-18万或18-27
平,都在6%左右;客户普遍集中在中等偏
低收入水平的客户,总共占比大概在86%
左右(针对5-15万年收入群体)。
Repurchase Related Insights
数据预处理
Repurchase Related Insights
数据分析&挖掘
基于X G B o o s t
的车款评级预测以及车型推荐
代码链接:https://zg104.github.io/xgb
XGBoostboosting Boostin g
起形成一个强分类器。X GB o ost
一个很强的分类器,所用到的树模型则CART
对新数据进行数据分析、特征工程、数据转换以及利用XGBoo st
分类进行建模,并可以通过评级内车款的销量加权得到相应的回购概率,筛选排名前10
车款进行推荐;我使用P ython X GBCl assi fier
采用5 使
现多分类任务。
X G B o o s t 算法介绍
数据建模
模型评估
confu sion matrix
classification report
以及召回率都达到95%
过随机森林的特征分裂算法刻画了各特征的重要性(右下);影响因素前五的特征分别
重购价差、开票价格、重购时差、市场车型以及客户行业。