我正在为一个类做一个项目,从LIBSVM中获取一些数据,并通过两种不同的聚类算法运行它。我让我的kmeans生成8个簇,而我的凝聚体将它们分成3个簇。
现在,我正在尝试判断由我的kmeans生成的集群标签是否可以用于预测由我的凝聚式集群生成的集群标签,例如,从agg集群将集群#6中的所有实例映射到集群#1。
我的教授建议使用决策树分类器,但我不太确定如何做到这一点。我知道我会将agg集群标签作为类标签,然后将我的数据输入其中,看看它是如何分类的。这就是我的问题所在,我有几个问题:
1)Scikit学习决策树分类器输出什么?这是每个实例可能被归类为的概率列表吗?或者它明确地对每个实例进行分类?
2) 在我输入数据并将每个实例分类到Agg生成的3个集群中的一个之后,如何从kmeans中找出它属于哪个集群?
3) 有更好的方法吗?我们需要做的就是“以定量的方式比较不同方法产生的聚类”,这样我们就不必使用决策树分类器,但我不确定还有什么好方法。我考虑过兰德和调整过的兰德指数,但这些似乎不是我想要的
非常感谢您的帮助!提前谢谢!
让我先回答。对学习。韵律学。请参阅文档。这是用“真实参考”的观点编写的,但这并不是真正必要的,调整后的兰德指数和规范化互信息对于比较两个聚类的相似程度非常有用,并且每个聚类都会产生一个有意义的数字。
1) 要么<代码>预测给出类,预测概率
给出概率。
2) 我不明白这个问题。