解决机器学习树集成模型的解释性问题

发布时间：2021-03-13 15:23:43 所属栏目：传媒来源：互联网

导读：特征重要度方法盘点其实像XGBoost之类的模型还算是有解释性的了，我们常常都会看到有人用信息增益、节点分裂数来衡量特征的重要度，但是这真的是合理的吗？在解释是否合理前，有2个概念需要先给大家普及一下： 1）一致性指的是一个模型的特征重要度，不会

特征重要度方法盘点

其实像XGBoost之类的模型还算是有解释性的了，我们常常都会看到有人用信息增益、节点分裂数来衡量特征的重要度，但是这真的是合理的吗？

在解释是否合理前，有2个概念需要先给大家普及一下：

1）一致性

指的是一个模型的特征重要度，不会因为我们更改了某个特征，而改变其重要度。比如A模型的特征X1的重要度是10，那么如果我们在模型里给特征X2加些权重以增大其重要度，重新计算重要度后，特征X1的重要度仍是10。不一致性可能会导致具有重要度较大的特征比具有重要度较小的特征更不重要。

2）个体化

指的是重要度的计算是可以针对个体，而不需要整个数据集一起计算。

好了，有了上面的认识，下面就来盘点一下目前常见的特征重要度计算的方法：

1）Tree SHAP：即 shapley加法解释，基于博弈论和局部解释的统一思想，通过树集成和加法方法激活shap值用于特征归因。

2）Saabas：一种个性化启发式特征归因方法。

3）mean(| Tree SHAP |)：基于个性化的启发式SHAP平均的全局属性方法。

4）Gain：即增益，由Breiman等人提出的一种全局的特征重要度计算方法，在XGBoost、scikit learn等包中都可以调用，它是给定特征在分裂中所带来的不纯度的减少值，经常会被用来做特征选择。

5）Split Count：即分裂次数统计，指的是给定特征被用于分裂的次数（因为越重要的越容易被引用，和论文引用差不多一个道理吧）。

6）Permutation：即排序置换，指的是随机排列某个特征，看下模型效果误差的变化，如果特征重要的话，模型误差会变化得特别大。

其中，属于个体化的仅有1-2，3-6均属于全局性统计，也就是说需要整个数据集进去计算的。

而对于一致性情况，我们有一个例子来证明：

有2个模型，Model A 和 Model B，其中A和B完全一致，但是我们在计算预测值的时候，强行给 Model B 的特征 Cough 加上 10分。如下图所示（点击看大图）：

（编辑：盐城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!