如何将大型标记化dfm转换为R中的矩阵？

提问者：小点点

如何将大型标记化dfm转换为R中的矩阵？

我有一个尺寸为2656242 x 630566的大型标记化dfm。我想将其转换为矩阵，但任何类型的操作都会给我以下错误

错误asmethod（object）： Cholmod错误'问题太大'at file… /Core/cholmod_dense.c，line 105

我到现在的代码如下：

Booker_PreSale = Samp2 %>% filter(Booking_Status=="Booker" & Pre_Post_Sale=="Pre-Sale")
Non_Booker_PreSale = Samp2 %>% filter(Booking_Status=="Non-Booker" & Pre_Post_Sale=="Pre-Sale")
data = rbind(Booker_PreSale,Non_Booker_PreSale)
data = data[,c(5,2)]
data = na.omit(data)
data$Booking_Status = as.factor(data$Booking_Status)
data$TextLength = nchar(as.character(data$comments))
    
library(caret)
set.seed(32984)
indexes = createDataPartition(data$Booking_Status,times = 1,
                              p=0.7,list = FALSE)

train = data[indexes,]
test = data[-indexes,]

library(quanteda)

train_tokens = tokens(as.character(train$comments), what = "word", 
                      remove_numbers = TRUE, remove_punct = TRUE,
                      remove_symbols = TRUE, remove_hyphens = TRUE)

train_tokens = tokens_tolower(train_tokens)
train_tokens = tokens_select(train_tokens, stopwords(), 
                              selection = "remove")

train_tokens = tokens_wordstem(train_tokens, language = "english")

train_tokens_dfm = dfm(train_tokens, tolower = FALSE)
train_tokens_matrix = as.matrix(train_tokens_dfm[,c(1:500)])

我无法再继续下去了。需要一些帮助来解决这个问题。

提前感谢。

共1个答案

匿名用户

似乎你的dfm太大了。因此，首先问问自己是否真的需要将你的dfm对象转换为矩阵。如果你想拟合一个将你的标记化文档作为输入的模型（例如，主题模型），你很可能不需要将dfm对象转换为矩阵！

如果您不明确需要矩阵，我建议您首先将dfm对象转换为非量子格式；这可以使用

non_dfm

然后，您可以使用将dfm内容提取为列表列表dfm_list


		      
                相关问题
                

																                
					
										   Android：在模块jefied-play-services-测量和jefied-play-services-测量-impl中发现重复类
										   HashMap如何跟踪entrySet等字段
										   在Hashmap中查找匹配的键/值对
										   如何迭代Hashmap并与同一Hashmap中的其他键进行组合以比较它们的对象
										   HashCode-如果相等的对象碰巧在同一个桶中散列会发生什么？
										   如何防止对数组中类对象的重复引用？
										   JavaHashMap内部数据结构在重新散列期间如何变化？
										   如何以及何时在HashMap中完成重新散列
										   在hashmap或hashtable中重新散列的成本
										   HashMap如何识别内部数组中的哪些位置包含元素？
										   当HashMap增加其大小时，HashMap中值的索引会发生什么？
										   @BeforeClass在ktor测试类中不工作
										   Jest vanilla JavaScript JSDOM刷新失败，切换beforeAll到before每一个后的第二次测试中断
										   玩笑未解决的promise不会失败
										   在笑话中，定义全局变量是否与在BeforeAll中定义相同？
										   静态编程语言中@BeforeAll的正确解决方法是什么
										   线程“main”java. lang.NoClassDefFoundError中的异常：在Intellij[Spring boot]中
										   线程“main”java. lang.NoClassDefFoundError中的异常：org/apache/log4j/ProvisionNode
										   log4j2 java. lang.NoClassDefFoundError：org/apache/log/log4j/LogManager
										   异步管道是否从服务中定义并从组件变量指向的可观察对象取消订阅？

如何将大型标记化dfm转换为R中的矩阵？

共1个答案

相关问题

热门标签

微信关注