基于X G B o o s t 算 法 对 客 户 重 购
的车款评级预测以及车型推荐
代码链接:https://zg104.github.io/xgb
XGBoost是boosting 算 法的其中一 种。 Boostin g 算法的思想 是将许多 弱分类 器集成在一
起形成一个强分类器。X GB o ost是 一种提升 树模型 ,它 是将许 多树模型 集成在 一起,形成
一个很强的分类器,所用到的树模型则是CART 回归树模型 。
对新数据进行数据分析、特征工程、数据转换以及利用XGBoo st算法 对 数据根 据车款评级
分类进行建模,并可以通过评级内车款的销量加权得到相应的回购概率,筛选排名前10的
车款进行推荐;我使用P ython 的X GBCl assi fier 来建模( 左上图为个 人撰写 的代码) ,并
采用5折交叉验证来提升 模型泛化能 力和可信 度,通 过使其多分 类对数损 失函数 最小化来实
现多分类任务。
X G B o o s t 算法介绍
数据建模
模型评估
通过对超参 数(学习 率、树总 量、最大 深度等)的 调节, 刻画 confu sion matrix (右 上)
和classification report(左下) 来体现模 型在测试机 上的泛 化能力, 准确度 、特异度
以及召回率都达到95%以上,说明 模型有很强 的泛化能 力,能 对新数据进 行预测。 并且通
过随机森林的特征分裂算法刻画了各特征的重要性(右下);影响因素前五的特征分别为
重购价差、开票价格、重购时差、市场车型以及客户行业。