提问者:小点点

火花错误:无法找到存储在数据集中的类型的编码器


我在Zeppelin笔记本上使用Spark,groupByKey()似乎不起作用。

此代码:

df.groupByKey(row => row.getLong(0))
  .mapGroups((key, iterable) => println(key))

给我这个错误(大概是编译错误,因为它会在我正在处理的数据集非常大的时候立即出现):

error: Unable to find encoder for type stored in a Dataset.  Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._  Support for serializing other types will be added in future releases.

我试图添加一个case类并将我的所有行映射到其中,但仍然得到相同的错误

import spark.implicits._

case class DFRow(profileId: Long, jobId: String, state: String)

def getDFRow(row: Row):DFRow = {
    return DFRow(row.getLong(row.fieldIndex("item0")),
                 row.getString(row.fieldIndex("item1")), 
                 row.getString(row.fieldIndex("item2")))
}

df.map(DFRow(_))
  .groupByKey(row => row.getLong(0))
  .mapGroups((key, iterable) => println(key))

我的Dataframe的架构是:

root
|-- item0: long (nullable = true)
|-- item1: string (nullable = true)
|-- item2: string (nullable = true)

共1个答案

匿名用户

您正在尝试使用函数(Long, Iterator[Row])=mapGroup

Dataset的一般部分API不关注SQLDSL(DataFrame=

由于Row对象没有预定义的编码器,因此将Dataset[Row]与为静态类型数据设计的方法一起使用没有多大意义。根据经验,您应该始终首先转换为静态类型的变体:

df.as[(Long, String, String)]

另请参阅尝试将数据帧行映射到更新行时的编码器错误