《基于Python的客户回购洞察分析与推荐系统建模》

6658e01052dc81a5991993c5107b783e.png

项目背景&需求

基于客户回购数据的数据科学洞察分析;我们有三个表格,分别对应于关键客户的基本信息、这些客户重新购买的汽车信息以及来自呼叫中心的服务请求。这个项目的目标是通过分析这些数据,获得有关客户回购行为的数据科学洞察,以便制定更有效的市场策略和提高客户满意度。

项目目标

通过对关键客户的基本信息、重新购买汽车的记录以及服务请求的分析,我们的目标是:

项目步骤

数据清理和整合

探索性数据分析(EDA)

模型建立和预测

风险和挑战

数据内容

af6ffc6a90b64ecd73732d4b00543342.png

关于车主

该数据集包含 3955 条记录,共 27 个字段,每一条记录代表一个车主的基本信息。以下是对每个字段的简要介绍:

  1. 车主 id (车主 ID): 车主的唯一标识符,数据类型为字符串。

  2. 姓名 (姓名): 车主的姓名,数据类型为字符串。

  3. 姓名拼音 (姓名拼音): 车主姓名的拼音表示,数据类型为字符串。

  4. 英文名称 (英文名称): 车主的英文名称,数据类型为字符串。

  5. 性别 (性别): 车主的性别,数据类型为字符串。

  6. 生日 (生日): 车主的生日,数据类型为日期时间。

  7. 婚姻状态 (婚姻状态): 车主的婚姻状况,数据类型为浮点数,无非空值。

  8. 教育程度 (教育程度): 车主的教育水平,数据类型为字符串。

  9. 职业大类 (职业大类): 车主的职业大类,数据类型为浮点数,无非空值。

  10. 职业小类 (职业小类): 车主的职业小类,数据类型为浮点数,无非空值。

  11. 职位 (职位): 车主的职位,数据类型为字符串。

  12. 行业 (行业): 车主所在行业,数据类型为字符串。

  13. 兴趣爱好 (兴趣爱好): 车主的兴趣爱好,数据类型为字符串,只有 3 个非空值。

  14. 家庭年收入 (家庭年收入): 车主家庭的年收入,数据类型为字符串。

  15. 家庭成员人数 (家庭成员人数): 车主家庭成员的人数,数据类型为字符串。

  16. 计划考驾照的时间 (计划考驾照的时间): 计划考取驾照的时间,数据类型为浮点数,无非空值。

  17. 是否拥有驾照 (是否拥有驾照): 车主是否拥有驾照,数据类型为字符串。

  18. 取得驾照年月 (取得驾照年月): 取得驾照的年月,数据类型为日期时间,只有 2 个非空值。

  19. 是否大客户 (是否大客户): 车主是否为大客户,数据类型为字符串,只有 30 个非空值。

  20. 是否 VIP 客户 (是否 VIP 客户): 是否为 VIP 客户,数据类型为浮点数,无非空值。

  21. 手机 (手机): 车主的手机号码,数据类型为浮点数。

  22. 区号 (区号): 车主的区号,数据类型为浮点数,只有 205 个非空值。

  23. 分机 (分机): 车主的分机号,数据类型为浮点数,只有 2 个非空值。

  24. 省份 (省份): 车主所在省份,数据类型为字符串。

  25. 城市 (城市): 车主所在城市,数据类型为字符串。

  26. 地址区 (地址区): 车主所在地区,数据类型为字符串。

  27. 邮编 (邮编): 车主的邮政编码,数据类型为字符串。

数据类型概要:

数据缺失情况:

数据质量问题:

关于车辆

该数据集包含 7978 条记录,共 11 个字段,每一条记录代表一个车主重新购买汽车的相关信息。以下是对每个字段的简要介绍:

  1. 车主 ID (车主 ID): 车主的唯一标识符,数据类型为字符串。

  2. VVIN (VVIN): 车辆识别号码,数据类型为字符串。

  3. 市场车型 (市场车型): 车型在市场上的类型,数据类型为字符串。

  4. 车型 (车型): 车主重新购买的汽车型号,数据类型为字符串。

  5. 购买日期 (购买日期): 车主重新购买汽车的日期,数据类型为日期时间。

  6. 开票价格 (开票价格): 车主重新购买汽车时的开票价格,数据类型为浮点数。

  7. ASSET_REF_EXPR (ASSET_REF_EXPR): 资产参考表达式,数据类型为字符串。

  8. OU_NAME (OU_NAME): 购买汽车的组织单位名称,数据类型为字符串。

  9. OU_ABREV (OU_ABREV): 购买汽车的组织单位简称,数据类型为字符串。

  10. OU_CITY (OU_CITY): 购买汽车的组织单位所在城市,数据类型为字符串。

  11. OU_COUNTY (OU_COUNTY): 购买汽车的组织单位所在县区,数据类型为字符串。

数据类型概要:

数据缺失情况:

数据质量问题:

以上是对重新购买汽车数据集的初步介绍,进一步的分析将有助于深入理解客户的重新购车行为和市场趋势。

关于工单

该数据集包含 1447 条记录,共 57 个字段,每一条记录代表一个关键客户从呼叫中心获得的服务请求信息。以下是对每个字段的简要介绍:

  1. 车主 ID (车主 ID): 车主的唯一标识符,数据类型为字符串。

  2. 服务品牌 (服务品牌): 服务请求所涉及的汽车品牌,数据类型为字符串。

  3. 服务工单编号 (服务工单编号): 服务工单的唯一标识符,数据类型为字符串。

  4. 关联工单号 (关联工单号): 关联的其他工单编号,数据类型为字符串,有 55 个非空值。

  5. 工单状态 (工单状态): 服务工单的状态,数据类型为字符串。

  6. 性质分类 (性质分类): 服务请求的性质分类,数据类型为字符串。

  7. 业务分类 (业务分类): 服务请求的业务分类,数据类型为字符串。

  8. 工单产生类型 (工单产生类型): 服务工单产生的类型,数据类型为字符串。

  9. 工单一级分类 (工单一级分类): 服务工单的一级分类,数据类型为字符串,有 1438 个非空值。

  10. 工单二级分类 (工单二级分类): 服务工单的二级分类,数据类型为字符串,有 290 个非空值。

  11. 工单三级分类 (工单三级分类): 服务工单的三级分类,数据类型为字符串,有 119 个非空值。

  12. 工单来源 (工单来源): 服务工单的来源,数据类型为字符串。

  13. 工单创建日期 (工单创建日期): 服务工单的创建日期,数据类型为日期时间。

  14. 年 (年): 服务工单创建的年份,数据类型为整数。

  15. 月 (月): 服务工单创建的月份,数据类型为整数。

  16. 工单来电描述 (工单来电描述): 客户来电时提供的服务工单描述,数据类型为字符串,有 1446 个非空值。

  17. 工单处理层面 (工单处理层面): 服务工单处理的层面,数据类型为字符串,有 286 个非空值。

  18. 处理部门 (处理部门): 处理服务工单的部门,数据类型为字符串,有 287 个非空值。

  19. 省份 (省份): 服务工单所在省份,数据类型为字符串,有 1364 个非空值。

  20. 车型大类 (车型大类): 服务工单所涉及汽车的大类别,数据类型为字符串,有 1282 个非空值。

  21. 车型 (车型): 服务工单所涉及汽车的具体型号,数据类型为字符串,有 1285 个非空值。

  22. 车型 6 位码 (车型 6 位码): 服务工单所涉及汽车的 6 位编码,数据类型为字符串,有 1285 个非空值。

  23. 车色 (车色): 服务工单所涉及汽车的颜色,数据类型为字符串,有 241 个非空值。

  24. 购车时间 (购车时间): 购车的时间,数据类型为日期时间,有 1285 个非空值。

  25. 车辆 VIN 码 (车辆 VIN 码): 汽车的 VIN 码,数据类型为字符串,有 1262 个非空值。

  26. 行驶里程 (行驶里程): 汽车的行驶里程,数据类型为浮点数,有 851 个非空值。

  27. 涉及机构类型 (涉及机构类型): 涉及的机构类型,数据类型为字符串,有 289 个非空值。

  28. 涉及机构代码 (涉及机构代码): 涉及的机构代码,数据类型为浮点数,有 289 个非空值。

  29. 涉及机构名称 (涉及机构名称): 涉及的机构名称,数据类型为字符串,有 289 个非空值。

  30. 所属分销中心 (所属分销中心): 服务工单所属的分销中心,数据类型为字符串,有 288 个非空值。

  31. 当前处理人 (当前处理人): 当前处理服务工单的人员,数据类型为字符串,有 1060 个非空值。

  32. 当前处理机构 (当前处理机构): 当前处理服务工单的机构,数据类型为字符串,有 287 个非空值。

  33. 当前处理经销商 (当前处理经销商): 当前处理服务工单的经销商,数据类型为字符串,有 264 个非空值。

  34. 上次处理人工号 (上次处理人工号): 上次处理服务工单的人员工号,数据类型为字符串,有 286 个非空值。

  35. 当前处理人工号 (当前处理人工号): 当前处理服务工单的人员工号,数据类型为字符串,有 1060 个非空值。

  36. 故障产品分类 (故障产品分类): 服务工单的故障产品分类,数据类型为字符串,有 96 个非空值。

  37. 工单实际响应时间 (工单实际响应时间): 服务工单的实际响应时间,数据类型为日期时间,有 294 个非空值。

  38. 工单实际完成时间 (工单实际完成时间): 服务工单的实际完成时间,数据类型为日期时间,有 1417 个非空值。

  39. 是否及时响应 (是否及时响应): 服务工单是否及时响应,数据类型为字符串。

  40. 是否及时完成 (是否及时完成): 服务工单是否及时完成,数据类型为字符串。

  41. 是否一次解决 (是否一次解决): 服务工单是否一次解决,数据类型为字符串。

  42. 是否记录投诉次数 (是否记录投诉次数): 是否记录投诉次数,数据类型为字符串。

  43. 是否重大事故 (是否重大事故): 服务工单是否涉及重大事故,数据类型为字符串。

  44. 操作历史当前操作部门 (操作历史当前操作部门): 操作历史记录中当前操作的部门,数据类型为字符串,有 1444 个非空值。

  45. 操作历史当前操作人 (操作历史当前操作人): 操作历史记录中当前操作的人员,数据类型为字符串,有 1447 个非空值。

  46. 操作历史当前操作时间 (操作历史当前操作时间): 操作历史记录中当前操作的时间,数据类型为日期时间,有 1447 个非空值。

  47. 操作历史操作类型 (操作历史操作类型): 操作历史记录中的操作类型,数据类型为字符串,有 885 个非空值。

  48. 系统登陆用户名 (系统登陆用户名): 系统登陆的用户名,数据类型为字符串。

  49. 姓名 (姓名): 车主姓名,数据类型为字符串。

  50. 是否媒体工单 (是否媒体工单): 服务工单是否属于媒体工单,数据类型为字符串。

  51. 媒体类别一级 (媒体类别一级): 媒体工单的一级类别,数据类型为字符串,有 12 个非空值。

  52. 媒体类别二级 (媒体类别二级): 媒体工单的二级类别,数据类型为字符串,有 12 个非空值。

  53. 媒体名称 (媒体名称): 媒体工单的名称,数据类型为字符串,有 12 个非空值。

  54. 是否与召回有关 (是否与召回有关): 服务工单是否与汽车召回有关,数据类型为字符串。

  55. 是否普遍问题 (是否普遍问题): 服务工单是否属于普遍问题,数据类型为字符串。

  56. 最后一次操作内容 (最后一次操作内容): 最后一次操作的具体内容,数据类型为字符串,有 398 个非空值。

  57. 用户咨询内容 (用户咨询内容): 用户咨询的具体内容,数据类型为字符串,有 48 个非空值。

数据类型概要:

数据缺失情况:

数据质量问题:

数据处理&分析

 

 

 

b016f7e144ff2c05a381f1578eacff99.gif

推荐系统

c46bfda5b615c749a73958129a04b241.png

db380ec6b3af9b6a6628b5e845897d2e.png