提问者:小点点

如何在使用scikit learn/sklearn训练决策树时处理分类数据?


我是新来的。我正在尝试使用sklearn模块来训练决策树分类器。数据由一些分类特征和一些连续特征组成。但是,当我训练分类器时,分类特征(具有1、2、3等值)被视为连续的。我得到的结果给出了一个范围,甚至是特征的分类值。例如,我得到一个决策树,其中X[0]

对于包含类别特征和类别超过2个的节点,是否有任何方法可以增加拆分的数量。


共1个答案

匿名用户

您应该首先对分类整数特征进行编码,然后应用DecisionTreeClassifier。

尝试使用库sklearn.preprocessing中的OneHotEncoder预处理分类功能。

例如,您应该首先执行以下操作:

    from sklearn.preprocessing import OneHotEncoder
    ohe = OneHotEncoder(sparse=False)
    processed_X = ohe.fit_transform(X[['0']].values)

其中“0”是列功能X[0]。