我将LIBSVM格式的数据输入到一个SciPy稀疏矩阵中。培训集是多标签和多类的,如我所问的问题:理解scikit学习中的数据格式所述
from sklearn.datasets import load_svmlight_file
X,Y = load_svmlight_file("train-subset100.csv.csv", multilabel = True, zero_based = True)
然后我使用带有LinearSVC的OneVsRest分类器
来训练数据。
clf = OneVsRestClassifier(LinearSVC())
clf.fit(X, Y)
现在当我想测试数据时,我执行以下操作。
X_, Y_ = load_svmlight_file("train-subset10.csv", multilabel = True, zero_based = False)
predicted = clf.predict(X_)
这里它给了我错误。我把追踪结果原封不动地放在这里。
回溯(最近一次呼叫最后一次):
文件“test.py”,第36行,在
预测=clf。预测(X_)
文件"/usr/lib/py模块/python2.7/skLearning/multiclass.py",第151行,在预测
返回预测值(self.estimators,self.label,binarizer,X)
文件“/usr/lib/pymodules/python2.7/sklearn/multiclass.py”,第67行,在predict\u ovr中
Y=np。数组([[u predict\u binary(e,X)表示估计量中的e])
文件“/usr/lib/pymodules/python2.7/sklearn/multiclass.py”,第40行,二进制
返回np。ravel(估计量.决策函数(X))
文件“/usr/lib/pymodules/python2.7/sklearn/svm/base.py”,第728行,在decision_函数中
_check_n_features(X)
文件“/usr/lib/pymodules/python2.7/sklearn/svm/base.py”,第748行,在检查功能中
X.形状[1]))
ValueError:X.shape[1]应为3421,而不是690。
我不明白为什么当输入格式是稀疏矩阵时,它会寻找更多的特征?如何让它正确预测测试标签?
我自己解决了这个问题。问题是使用SVMLIGHT/LIBSVM格式一个接一个地加载数据集期望训练矩阵具有相同大小的特征集。所以有两个变通办法。一种是使用load_svmlight_files
命令一次输入所有数据。
X,Y,X_,Y_ = load_svmlight_files("train-subset100.csv", "train-subset10.csv",...
multilabel = True, zero_based = False)
其次,您可以明确提到功能的数量。
X,Y=load_svmlight_file("train-subset100.csv",multilabel=True, zero_based = False)
X_,Y_ = load_svmlight_file("train-subset10.csv", n_features = X.shape[1],...
multilabel = True, zero_based = False, )