为决策树回归解释Graphviz输出

提问者：小点点

为决策树回归解释Graphviz输出

我很好奇当用于回归时，Graphviz生成的决策树的节点中的value字段是什么。我知道这是使用决策树分类时每个类中被分割的样本数，但我不确定它对回归意味着什么。

我的数据有2维输入和10维输出。下面是一个关于我的回归问题的树的示例：

使用此代码制作

# X = (n x 2)  Y = (n x 10)  X_test = (m x 2)

input_scaler = pickle.load(open("../input_scaler.sav","rb"))
reg = DecisionTreeRegressor(criterion = 'mse', max_depth = 2)
reg.fit(X,Y)
pred = reg.predict(X_test)
with open("classifier.txt", "w") as f:
    f = tree.export_graphviz(reg, out_file=f)

共1个答案

匿名用户

回归树作为输出实际返回的是在各个终端节点（叶）中结束的训练样本的因变量（这里是Y）的平均值；这些平均值在图片中显示为名为value的列表，这里的长度都是10，因为Y是10维的。

换句话说，并使用树的最左侧终端节点（叶）作为示例：

叶子由42个样本组成，其中X[0]

您可以通过预测一些样本（来自您的训练或测试集-这无关紧要）并检查您的10维结果是否是上面描述的4个值列表中的一个来确认情况。

此外，您可以确认，对于value中的每个元素，子节点的加权平均值等于父节点的相应元素。同样，使用2个最左侧终端节点（叶子）的第一个元素，我们得到：

(-42*152007.382 - 56*199028.147)/98
# -178876.39057142858

即它们的父节点（中间级中最左边的节点）的值[0]元素。再举一个例子，这次是2个中间节点的第一个value元素：

(-98*178876.391 + 42*417378.245)/140
# -0.00020000000617333822

这也与根节点的-0.0第一个value元素一致。

从根节点的value列表判断，似乎10维Y的所有元素的平均值几乎为零，您可以（也应该）手动验证，作为最终确认。

因此，总结一下：

每个节点的value列表包含属于相应节点的训练样本的平均Y值


此外，对于终端节点（叶子），这些列表是树模型的实际输出（即输出将始终是这些列表之一，取决于X）
对于根节点，value列表包含整个训练数据集的平均Y值


		      
                相关问题
                

																                
					
										   如何将终端输出转换为超文本标记语言文件格式
										   奇怪的优化？在'libuv'中。请解释[重复]
										   STS（Spring Tool SUite）输出控制台视图自动消失/关闭
										   处理多个PCollection输出时找不到编码器
										   解释与Cloud Dataflow一起使用时Google Cloud PubSub的成本
										   哪个函数对Hadoop Src 2.7.1中Reduce阶段的Map任务输出进行排序，排序阶段何时开始？
										   在MapReduce中，为什么map函数在查找单词出现时输出1？
										   映射器何时将其输出存储到其本地硬盘？
										   Hadoop映射器直接写入输出。（减少器写入映射器的输出）
										   减速机不拾取映射器输出文件
										   如何使用一个减速器的输出作为另一个映射器的输入？
										   Reducer可以读取相同顺序的映射器输出而不是使用值对唯一键进行分组吗？
										   在另一个映射器中使用减速器的输出
										   在Sqoop的情况下，映射器输出如何写入HDFS？
										   mapduce作业的map阶段的输出是否始终排序？
										   Hadoop：减速机输出到另一个减速机
										   当自定义查找器的限制更改时，CakePHP 3给出错误的分页输出
										   错误：退出状态为1的命令错误：pythonsetup.pyegg_info检查日志以获取完整的命令输出。当我安装misp模块时
										   退出状态为1的命令错误：pythonsetup.pyegg_info检查日志以获取完整的命令输出-同时通过pip安装auto-py-to-exe
										   有人能解释我在张量流keras中的问题吗？

为决策树回归解释Graphviz输出

共1个答案

相关问题

热门标签

微信关注