我必须对一个列应用一些多个函数来获得bigram列表,但是以我目前使用的方式使用apply函数的速度非常慢。你有办法提高速度吗?
def remove_stop_words(text):
cleantext = text.lower()
cleantext = ' '.join(re.sub(r'[^\w]', ' ', cleantext).strip().split())
filtered_sentence= ''
for w in word_tokenize(cleantext):
if w not in stop_words:
filtered_sentence = filtered_sentence + ' ' + w
return filtered_sentence.strip()
def lemmatize(text):
lemma_word = []
for w in word_tokenize(text.lower()):
word1 = wordnet_lemmatizer.lemmatize(w, pos = "n")
word2 = wordnet_lemmatizer.lemmatize(word1, pos = "v")
word3 = wordnet_lemmatizer.lemmatize(word2, pos = ("a"))
lemma_word.append(word3)
return ' '.join(lemma_word)
def get_ngrams(text, n ):
n_grams = ngrams(word_tokenize(text), n=2)
return [ ' '.join(grams) for grams in n_grams]
df['bigrams'] = df.headline.apply(lambda x: get_ngrams(lemmatize(remove_stop_words(x)),n=2))
编辑:(基于注释)数据帧df包含2列-1.标题2。情绪评分
标题-它是新闻标题,基本上是文本,我必须在上面应用函数来获取标题的大图
情绪分数-我必须在df数据帧中保留分数,因此需要在同一数据帧中获得一个名为“bigram”的列
数据帧df
我发现最好的方法是使用多处理库并行化进程。
import numpy as np
import pandas as pd
import re
import time
from nltk import pos_tag, word_tokenize
from nltk.util import ngrams
import nltk
from nltk.corpus import stopwords
import nltk.data
from nltk.stem import WordNetLemmatizer
import random
from multiprocessing import Pool
def get_ngrams(text, n=2 ):
n_grams = ngrams(text.split(), n=n)
return [ ' '.join(grams) for grams in n_grams]
def bigrams(df):
df['bigrams'] = df.headline.apply(lambda x: get_ngrams(lemmatize(remove_stop_words(x)),n=2))
return df
def parallelize_dataframe(df, func, n_cores=20):
df_split = np.array_split(df, n_cores)
pool = Pool(n_cores)
df = pd.concat(pool.map(func, df_split))
pool.close()
pool.join()
return df
df2 = parallelize_dataframe(df, bigrams)
bigramScore = df2.explode('bigrams')
注意:只有当你有大量可用的内核时,如果你只有2-3个可用的内核,这可能不是最好的方法,因为并行化过程的开销也需要考虑。