dplyr总结函数返回何时是向量值？

提问者：小点点

dplyr总结函数返回何时是向量值？

dplyr的::的（）函数可以对数据应用任意函数，但似乎函数必须返回一个标量值。我很好奇是否有一个合理的方法来处理返回向量值的函数，而不需要对函数进行多次调用。

这是一个有点愚蠢的最小示例。考虑一个给出多个值的函数，例如：

f <- function(x,y){
  coef(lm(x ~ y, data.frame(x=x,y=y)))
}

和类似的数据：

df <- data.frame(group=c('A','A','A','A','B','B','B','B','C','C','C','C'), x=rnorm(12,1,1), y=rnorm(12,1,1))

我想做一些类似的事情：

df %>% 
group_by(group) %>%
summarise(f(x,y))

并取回一个表，该表为每个返回值添加了2列，而不是通常的1列。相反，此错误为：期望单个值

当然，我们可以从dlpyr中获取多个值::通过多次给出函数参数来获取：

f1 <- function(x,y) coef(lm(x ~ y, data.frame(x=x,y=y)))[[1]]
f2 <- function(x,y) coef(lm(x ~ y, data.frame(x=x,y=y)))[[2]]

df %>% 
group_by(group) %>%
summarise(a = f1(x,y), b = f2(x,y))

这给出了所需的输出：

  group         a            b
1     A 1.7957245 -0.339992915
2     B 0.5283379 -0.004325209
3     C 1.0797647 -0.074393457

但是以这种方式编码是可笑的粗糙和丑陋。

data. table更简洁地处理了这种情况：

dt <- as.data.table(df)
dt[, f(x,y), by="group"]

但是创建一个使用附加行而不是附加列扩展表的输出，导致输出既令人困惑又难以使用：

 group           V1
1:     A  1.795724536
2:     A -0.339992915
3:     B  0.528337890
4:     B -0.004325209
5:     C  1.079764710
6:     C -0.074393457

当然，我们可以在这里使用更多经典的应用策略，

sapply(levels(df$group), function(x) coef(lm(x~y, df[df$group == x, ])))


                     A            B           C
(Intercept)  1.7957245  0.528337890  1.07976471
y           -0.3399929 -0.004325209 -0.07439346

但这牺牲了优雅性，我怀疑分组的速度。特别注意，在这种情况下，我们不能使用我们预定义的函数f，而是必须将分组硬编码到函数定义中。

是否有dplyr函数来处理这种情况？如果没有，是否有更优雅的方法来处理在数据上逐组评估向量值函数的过程？

共2个答案

匿名用户

你可以尝试do

library(dplyr)
 df %>%
    group_by(group) %>%
    do(setNames(data.frame(t(f(.$x, .$y))), letters[1:2]))
 # group         a           b
 #1     A 0.8983217 -0.04108092
 #2     B 0.8945354  0.44905220
 #3     C 1.2244023 -1.00715248

基于f1和f2的输出是

df %>% 
  group_by(group) %>%
  summarise(a = f1(x,y), b = f2(x,y))
#  group         a           b
#1     A 0.8983217 -0.04108092
#2     B 0.8945354  0.44905220
#3     C 1.2244023 -1.00715248

如果您使用data. table，则获得类似结果的选项是

 library(data.table)
 setnames(setDT(df)[, as.list(f(x,y)) , group], 2:3, c('a', 'b'))[]

匿名用户

这就是为什么我仍然喜欢plyr::ddplyr（）：

library(plyr)
f <- function(z) setNames(coef(lm(x ~ y, z)), c("a", "b"))
ddply(df, ~ group, f)
#   group           a          b
# 1     A   0.5213133 0.04624656
# 2     B   0.3020656 0.01450137
# 3     C   0.2189537 0.22998823