基于客户回购数据的数据科学洞察分析;我们有三个表格,分别对应于关键客户的基本信息、这些客户重新购买的汽车信息以及来自呼叫中心的服务请求。这个项目的目标是通过分析这些数据,获得有关客户回购行为的数据科学洞察,以便制定更有效的市场策略和提高客户满意度。
通过对关键客户的基本信息、重新购买汽车的记录以及服务请求的分析,我们的目标是:
综合使用 Python 各个数据分析模块,发现客户回购的趋势和模式。
利用机器学习模型识别影响客户回购的关键因素,并对客户可能复购的车型进行推荐
对三个表格进行数据清理,处理任何缺失值和异常值。
整合三个表格,以建立全面的客户数据集。
分析关键客户的基本信息,包括年龄、性别、地理位置等。
研究重新购买汽车的模式,例如品牌偏好、购车间隔等。
制作可视化图表,总结数据科学洞察和对策建议。
识别影响客户回购的关键因素
建立客户回购的预测模型,以识别潜在的回购趋势。
数据质量问题可能影响洞察的准确性。
数据隐私和合规性问题需要得到妥善处理。
该数据集包含 3955 条记录,共 27 个字段,每一条记录代表一个车主的基本信息。以下是对每个字段的简要介绍:
车主 id (车主 ID): 车主的唯一标识符,数据类型为字符串。
姓名 (姓名): 车主的姓名,数据类型为字符串。
姓名拼音 (姓名拼音): 车主姓名的拼音表示,数据类型为字符串。
英文名称 (英文名称): 车主的英文名称,数据类型为字符串。
性别 (性别): 车主的性别,数据类型为字符串。
生日 (生日): 车主的生日,数据类型为日期时间。
婚姻状态 (婚姻状态): 车主的婚姻状况,数据类型为浮点数,无非空值。
教育程度 (教育程度): 车主的教育水平,数据类型为字符串。
职业大类 (职业大类): 车主的职业大类,数据类型为浮点数,无非空值。
职业小类 (职业小类): 车主的职业小类,数据类型为浮点数,无非空值。
职位 (职位): 车主的职位,数据类型为字符串。
行业 (行业): 车主所在行业,数据类型为字符串。
兴趣爱好 (兴趣爱好): 车主的兴趣爱好,数据类型为字符串,只有 3 个非空值。
家庭年收入 (家庭年收入): 车主家庭的年收入,数据类型为字符串。
家庭成员人数 (家庭成员人数): 车主家庭成员的人数,数据类型为字符串。
计划考驾照的时间 (计划考驾照的时间): 计划考取驾照的时间,数据类型为浮点数,无非空值。
是否拥有驾照 (是否拥有驾照): 车主是否拥有驾照,数据类型为字符串。
取得驾照年月 (取得驾照年月): 取得驾照的年月,数据类型为日期时间,只有 2 个非空值。
是否大客户 (是否大客户): 车主是否为大客户,数据类型为字符串,只有 30 个非空值。
是否 VIP 客户 (是否 VIP 客户): 是否为 VIP 客户,数据类型为浮点数,无非空值。
手机 (手机): 车主的手机号码,数据类型为浮点数。
区号 (区号): 车主的区号,数据类型为浮点数,只有 205 个非空值。
分机 (分机): 车主的分机号,数据类型为浮点数,只有 2 个非空值。
省份 (省份): 车主所在省份,数据类型为字符串。
城市 (城市): 车主所在城市,数据类型为字符串。
地址区 (地址区): 车主所在地区,数据类型为字符串。
邮编 (邮编): 车主的邮政编码,数据类型为字符串。
数据类型概要:
字符串 (object): 17 个字段
日期时间 (datetime64): 2 个字段
浮点数 (float64): 8 个字段
数据缺失情况:
生日字段有一半的数据是缺失的。
婚姻状态、职业大类、职业小类等字段全部为缺失。
有些字段只有极少量的非空值,如兴趣爱好、是否大客户等。
数据质量问题:
数据中存在一些异常的浮点数值。
手机号、区号、分机等字段应为字符串类型,但当前为浮点数。
该数据集包含 7978 条记录,共 11 个字段,每一条记录代表一个车主重新购买汽车的相关信息。以下是对每个字段的简要介绍:
车主 ID (车主 ID): 车主的唯一标识符,数据类型为字符串。
VVIN (VVIN): 车辆识别号码,数据类型为字符串。
市场车型 (市场车型): 车型在市场上的类型,数据类型为字符串。
车型 (车型): 车主重新购买的汽车型号,数据类型为字符串。
购买日期 (购买日期): 车主重新购买汽车的日期,数据类型为日期时间。
开票价格 (开票价格): 车主重新购买汽车时的开票价格,数据类型为浮点数。
ASSET_REF_EXPR (ASSET_REF_EXPR): 资产参考表达式,数据类型为字符串。
OU_NAME (OU_NAME): 购买汽车的组织单位名称,数据类型为字符串。
OU_ABREV (OU_ABREV): 购买汽车的组织单位简称,数据类型为字符串。
OU_CITY (OU_CITY): 购买汽车的组织单位所在城市,数据类型为字符串。
OU_COUNTY (OU_COUNTY): 购买汽车的组织单位所在县区,数据类型为字符串。
数据类型概要:
字符串 (object): 9 个字段
日期时间 (datetime64): 1 个字段
浮点数 (float64): 1 个字段
数据缺失情况:
VVIN、市场车型、车型、购买日期等字段存在一些缺失值。
数据质量问题:
开票价格字段为浮点数,可能需要进行数据清理和异常值处理。
以上是对重新购买汽车数据集的初步介绍,进一步的分析将有助于深入理解客户的重新购车行为和市场趋势。
该数据集包含 1447 条记录,共 57 个字段,每一条记录代表一个关键客户从呼叫中心获得的服务请求信息。以下是对每个字段的简要介绍:
车主 ID (车主 ID): 车主的唯一标识符,数据类型为字符串。
服务品牌 (服务品牌): 服务请求所涉及的汽车品牌,数据类型为字符串。
服务工单编号 (服务工单编号): 服务工单的唯一标识符,数据类型为字符串。
关联工单号 (关联工单号): 关联的其他工单编号,数据类型为字符串,有 55 个非空值。
工单状态 (工单状态): 服务工单的状态,数据类型为字符串。
性质分类 (性质分类): 服务请求的性质分类,数据类型为字符串。
业务分类 (业务分类): 服务请求的业务分类,数据类型为字符串。
工单产生类型 (工单产生类型): 服务工单产生的类型,数据类型为字符串。
工单一级分类 (工单一级分类): 服务工单的一级分类,数据类型为字符串,有 1438 个非空值。
工单二级分类 (工单二级分类): 服务工单的二级分类,数据类型为字符串,有 290 个非空值。
工单三级分类 (工单三级分类): 服务工单的三级分类,数据类型为字符串,有 119 个非空值。
工单来源 (工单来源): 服务工单的来源,数据类型为字符串。
工单创建日期 (工单创建日期): 服务工单的创建日期,数据类型为日期时间。
年 (年): 服务工单创建的年份,数据类型为整数。
月 (月): 服务工单创建的月份,数据类型为整数。
工单来电描述 (工单来电描述): 客户来电时提供的服务工单描述,数据类型为字符串,有 1446 个非空值。
工单处理层面 (工单处理层面): 服务工单处理的层面,数据类型为字符串,有 286 个非空值。
处理部门 (处理部门): 处理服务工单的部门,数据类型为字符串,有 287 个非空值。
省份 (省份): 服务工单所在省份,数据类型为字符串,有 1364 个非空值。
车型大类 (车型大类): 服务工单所涉及汽车的大类别,数据类型为字符串,有 1282 个非空值。
车型 (车型): 服务工单所涉及汽车的具体型号,数据类型为字符串,有 1285 个非空值。
车型 6 位码 (车型 6 位码): 服务工单所涉及汽车的 6 位编码,数据类型为字符串,有 1285 个非空值。
车色 (车色): 服务工单所涉及汽车的颜色,数据类型为字符串,有 241 个非空值。
购车时间 (购车时间): 购车的时间,数据类型为日期时间,有 1285 个非空值。
车辆 VIN 码 (车辆 VIN 码): 汽车的 VIN 码,数据类型为字符串,有 1262 个非空值。
行驶里程 (行驶里程): 汽车的行驶里程,数据类型为浮点数,有 851 个非空值。
涉及机构类型 (涉及机构类型): 涉及的机构类型,数据类型为字符串,有 289 个非空值。
涉及机构代码 (涉及机构代码): 涉及的机构代码,数据类型为浮点数,有 289 个非空值。
涉及机构名称 (涉及机构名称): 涉及的机构名称,数据类型为字符串,有 289 个非空值。
所属分销中心 (所属分销中心): 服务工单所属的分销中心,数据类型为字符串,有 288 个非空值。
当前处理人 (当前处理人): 当前处理服务工单的人员,数据类型为字符串,有 1060 个非空值。
当前处理机构 (当前处理机构): 当前处理服务工单的机构,数据类型为字符串,有 287 个非空值。
当前处理经销商 (当前处理经销商): 当前处理服务工单的经销商,数据类型为字符串,有 264 个非空值。
上次处理人工号 (上次处理人工号): 上次处理服务工单的人员工号,数据类型为字符串,有 286 个非空值。
当前处理人工号 (当前处理人工号): 当前处理服务工单的人员工号,数据类型为字符串,有 1060 个非空值。
故障产品分类 (故障产品分类): 服务工单的故障产品分类,数据类型为字符串,有 96 个非空值。
工单实际响应时间 (工单实际响应时间): 服务工单的实际响应时间,数据类型为日期时间,有 294 个非空值。
工单实际完成时间 (工单实际完成时间): 服务工单的实际完成时间,数据类型为日期时间,有 1417 个非空值。
是否及时响应 (是否及时响应): 服务工单是否及时响应,数据类型为字符串。
是否及时完成 (是否及时完成): 服务工单是否及时完成,数据类型为字符串。
是否一次解决 (是否一次解决): 服务工单是否一次解决,数据类型为字符串。
是否记录投诉次数 (是否记录投诉次数): 是否记录投诉次数,数据类型为字符串。
是否重大事故 (是否重大事故): 服务工单是否涉及重大事故,数据类型为字符串。
操作历史当前操作部门 (操作历史当前操作部门): 操作历史记录中当前操作的部门,数据类型为字符串,有 1444 个非空值。
操作历史当前操作人 (操作历史当前操作人): 操作历史记录中当前操作的人员,数据类型为字符串,有 1447 个非空值。
操作历史当前操作时间 (操作历史当前操作时间): 操作历史记录中当前操作的时间,数据类型为日期时间,有 1447 个非空值。
操作历史操作类型 (操作历史操作类型): 操作历史记录中的操作类型,数据类型为字符串,有 885 个非空值。
系统登陆用户名 (系统登陆用户名): 系统登陆的用户名,数据类型为字符串。
姓名 (姓名): 车主姓名,数据类型为字符串。
是否媒体工单 (是否媒体工单): 服务工单是否属于媒体工单,数据类型为字符串。
媒体类别一级 (媒体类别一级): 媒体工单的一级类别,数据类型为字符串,有 12 个非空值。
媒体类别二级 (媒体类别二级): 媒体工单的二级类别,数据类型为字符串,有 12 个非空值。
媒体名称 (媒体名称): 媒体工单的名称,数据类型为字符串,有 12 个非空值。
是否与召回有关 (是否与召回有关): 服务工单是否与汽车召回有关,数据类型为字符串。
是否普遍问题 (是否普遍问题): 服务工单是否属于普遍问题,数据类型为字符串。
最后一次操作内容 (最后一次操作内容): 最后一次操作的具体内容,数据类型为字符串,有 398 个非空值。
用户咨询内容 (用户咨询内容): 用户咨询的具体内容,数据类型为字符串,有 48 个非空值。
数据类型概要:
字符串 (object): 48 个字段
日期时间 (datetime64): 5 个字段
浮点数 (float64): 2 个字段
整数 (int64): 2 个字段
数据缺失情况:
多个字段存在缺失值,如关联工单号、工单二级分类、工单三级分类、车色、行驶里程等。
数据质量问题:
数据中存在一些异常的浮点数值。
字符串字段中可能需要进行异常值处理。