使用sklearn创建的决策树的每个节点的“值”的解释是什么?我原以为“值”中的数字加起来就是“样本”,但正如你从图片中看到的,我的数字不是。(这只是一个节点的图片,但它们都是这样的。)我知道这一定与我应用的类权重有关,因为当我创建一个没有权重的决策树时,这些值加起来就是样本。但是,由于目标变量的10%的数据是“1”,90%的数据是“0”,因此我为类分配了{0:0:10,1:0.90}的权重,以补偿数据中的不平衡。应该是另一条路吗?
请帮助我理解如何解释决策树中的每个节点。谢谢
value
的解释就是样本的总和乘以它们各自的权重。
在您的案例中,我们可以推断254.5是加权为0.1
的类。这意味着我们有2545个该类的样本(因为2545*0.1=254.5
)。类似地,20*0.9=18
,因此我们有20个类样本,权重为0.9。加在一起,结果是2545 20=2565个样本,这与您的样本相等。
在默认情况下,样本权重均为1,这意味着value
将与样本数相加。
我建议使用整数权重{0:1,1:9}
,因为除非必要,否则应避免使用浮动。