我正在从事一个机器学习(数据挖掘)项目,我已经完成了数据探索和数据准备步骤,这是用python完成的!
现在我面临这个问题:我的数据集中有分类属性。经过研究,我发现最适合这种数据的算法是决策树或随机forrest分类器!
但我读过一些关于决策树和分类属性的类似问题,发现我正在使用的库(scikit learn)不适用于分类属性。检查这里和这里,为了使它与分类工作,我需要将我的分类变量编码为数字变量,但我不想使用编码,因为根据这个答案,我将失去我的属性的一些属性和一些信息,而且我的一些属性有100多个不同的值。
所以我想知道:
将用python进行数据探索和准备,用weka(java)训练模型,并将其部署到python flask web应用程序中?可能吗?
您链接的关于编码分类输入的答案只是说,当您的类别没有固有的顺序时,您应该避免数字编码。在这种情况下,它正确地建议您使用单热编码。
简单地说,机器学习模型是以数字为基础的,因此,即使你发现一个库没有显式编码就接受你的原始类别,它仍然必须先对它们进行内部编码,然后才能执行任何计算。
100个类别并不多,大多数书架库都能很好地处理这些输入。我建议你试试xgboost