巧克力条评分用机器学习模型解释
SHAP值可可百分比、豆类类型、公司定位和豆原
发布于
3分钟阅读
2022年12月16日
义工
在此分析中,我使用公开数据集包括专家评分超过1 700个巧克力条从2006-2017从浮点草网站评分定义详解:
- 5=电子名词转介超出常态限值
- 4=优先级高口味开发 字符风格
- 3=满足性3.0至可赞美性3.75(精通特殊性能)
- 2=失望感可理解性但至少含有一个重大缺陷
- 1=异想天开基本不可满足性
数据集kugle公开发布.全部细节分析可查找内公用Kagle笔记本.
步骤1-数据预处理
数据预处理由下列步骤组成
- 重命名列;
- 解析豆类类型并可可百分比;
- 删除未用列;
- 编码稀有绝对变量高山市豆类类型并豆源)不多于30码单列和至少10每一类别记录;
- 终于删除未用列
步骤2-设置机器学习模型预测巧克力条评分
前步编译数据随机划分为培训样本和测试样本并用模型建模CatBoostRegressor模型明确考虑绝对特征上头root平均平方报错RMSE生成模型约0.459评分,a相对于基准模型RMSE约0.481点提高假设不变评分约3.2分For中选记录数据集)
步骤3-解释获取机器学习模型
在这里,我们正在使用shapley补充规划方法最常用探索