如何将新数据传递给保存的多媒体分类器？

提问者：小点点

如何将新数据传递给保存的多媒体分类器？

我已经能够制作一个MultinomialNB分类器，并将其保存到泡菜文件中供以后使用（这要归功于youtube视频：https://www.youtube.com/watch?v=0kPRaYSgblM

import sklearn.datasets as skd
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer

from sklearn.naive_bayes import MultinomialNB
import pickle


categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']

train_data = skd.load_files('E:/Python/Datasets/train', categories=categories, encoding='ISO-8859-1')

test_data = skd.load_files('E:/Python/Datasets/test', categories=categories, encoding='ISO-8859-1')

tf_vect = TfidfVectorizer()

tfidf_train = tf_vect.fit_transform(train_data.data)

clf = MultinomialNB().fit(tfidf_train, train_data.target)

with open('classifier', 'wb') as picklefile:
    pickle.dump(clf, picklefile)

现在，在一个单独的代码文件中，我可以将其读回一个新变量“new_clf”，以将该分类器用于新的文本数据：

import pickle

with open('E:\Python\Text Classification\classifier', 'rb') as tm:
    new_clf = pickle.load(tm)

现在，如果我直接运行以前的文件/代码，并从它那里得到tf_vect变量，其中已经安装了我的训练数据，我可以简单地转换它上的新文本集，并将其传递给new_clf分类器以获得预测。

但是在我的例子中，一旦模型被训练，我想把它发送给另一个用户，这个用户将拥有一个单独的代码文件，该文件必须读取分类器，然后将新文本传递给它进行预测。

我在这里得到的问题是在下面的代码（以ValueError结束：维度不匹配）：-

new_text = ['God is Love', 'OpenGL is fast on GPU']
new_clf.predict(new_text)

我明白我不是根据训练数据的特征来转换new_text。但是我不知道如何解决它。

我是否要创建另一个包含tf_vect的pickle文件并与用户共享？或者它已经和分类器文件一起运行，而我错过了从分类器获取它的过程？

共1个答案

匿名用户

您确实可以保存两个pickle文件，一个用于矢量器，另一个用于分类器。但是，最方便和推荐的解决方案是将矢量器和分类器组合成一个管道对象，然后可以对其进行pickle。

from sklearn.pipeline import Pipeline

tf_vect = TfidfVectorizer()
clf = MultinomialNB()
pipe = Pipeline([("vectorizer", tf_vect), ("classifier", clf)])

pipe.fit(train_data.data, train_data.target)

with open('classifier', 'wb') as picklefile:
    pickle.dump(pipe, picklefile)

加载该pickle文件后，可以将其与新文本一起使用，如下所示：

with open('/.../classifier', 'rb') as tm:
    new_pipe = pickle.load(tm)
new_pipe.predict(new_text)


		      
                相关问题
                

																                
					
										   JavaHashMap内部数据结构在重新散列期间如何变化？
										   hashmap如何识别何时需要重新散列
										   HashMap基于大小的重新散列
										   如何以及何时在HashMap中完成重新散列
										   散列码的分布如何影响Java的HashMap何时重新散列？
										   在hashmap或hashtable中重新散列的成本
										   Jest vanilla JavaScript JSDOM刷新失败，切换beforeAll到before每一个后的第二次测试中断
										   使用Junit重新运行失败的测试
										   结合主体时不更新在模板中的异步管道可观察
										   AngularJS-$销毁是否删除事件侦听器？
										   共享可观察数据的正确方式和地点是什么
										   Angular： in ngOnInit（）当我重新加载组件时，我的rxjs Fucntion不会运行
										   您是否需要取消订阅Angular中的路由器参数？
										   Angular2路由器（@angular2/router），如何设置默认路由？
										   如何将异步管道过滤成Angular子组件
										   Angular 4每次组件加载时重新加载函数
										   如何以异步方式删除/更新以及何时应该取消订阅？
										   RxJava：防止一个可观察对象发射，直到另一个可观察对象的数据被发射
										   @组件的Angular@取消订阅装饰器
										   Angular2/4：实时刷新数据

如何将新数据传递给保存的多媒体分类器？

共1个答案

相关问题

热门标签

微信关注