火花错误：无法找到存储在数据集中的类型的编码器

提问者：小点点

火花错误：无法找到存储在数据集中的类型的编码器

我在Zeppelin笔记本上使用Spark，groupByKey（）似乎不起作用。

此代码：

df.groupByKey(row => row.getLong(0))
  .mapGroups((key, iterable) => println(key))

给我这个错误（大概是编译错误，因为它会在我正在处理的数据集非常大的时候立即出现）：

error: Unable to find encoder for type stored in a Dataset.  Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._  Support for serializing other types will be added in future releases.

我试图添加一个case类并将我的所有行映射到其中，但仍然得到相同的错误

import spark.implicits._

case class DFRow(profileId: Long, jobId: String, state: String)

def getDFRow(row: Row):DFRow = {
    return DFRow(row.getLong(row.fieldIndex("item0")),
                 row.getString(row.fieldIndex("item1")), 
                 row.getString(row.fieldIndex("item2")))
}

df.map(DFRow(_))
  .groupByKey(row => row.getLong(0))
  .mapGroups((key, iterable) => println(key))

我的Dataframe的架构是：

root
|-- item0: long (nullable = true)
|-- item1: string (nullable = true)
|-- item2: string (nullable = true)

共1个答案

匿名用户

您正在尝试使用函数（Long， Iterator[Row]）=mapGroup

在Dataset的一般部分API不关注SQLDSL（DataFrame=

由于Row对象没有预定义的编码器，因此将Dataset[Row]与为静态类型数据设计的方法一起使用没有多大意义。根据经验，您应该始终首先转换为静态类型的变体：

df.as[(Long, String, String)]

另请参阅尝试将数据帧行映射到更新行时的编码器错误


		      
                相关问题
                

																                
					
										   JavaHashMap内部数据结构在重新散列期间如何变化？
										   共享可观察数据的正确方式和地点是什么
										   Angular 2 Auth Gaurd使用ngrx存储选择。我退订吗？
										   如果没有“订阅”类型的对象，如何取消订阅可观察？
										   RxJava：防止一个可观察对象发射，直到另一个可观察对象的数据被发射
										   Angular2/4：实时刷新数据
										   获取API获取415不支持的媒体类型使用POST
										   返回415不支持的媒体类型REST客户端的响应状态
										   对于所有对象类型T，sizeof（T）>=对（T）总是这样吗？
										   是否对参与部分排序的类型进行实例化
										   部分排序时，成员函数模板的原始类型是什么
										   升级mongo搜索从runCommand找到使用Java驱动程序
										   为什么具有顺序一致性的std::atomic存储使用XCHG？
										   如何使用selenium WebDrive（java）抓取表中的数据？
										   Selenium网络驱动程序在webelement列表中存储webelement
										   x86上加载和存储的原子性
										   无法使用chropath找到动态xpath：它可能是来自不同src的svg/伪元素/注释/iframe的子项。目前ChroPath不支持
										   为什么没有一个主要的编译器优化这个检查值是否已经设置的条件存储？
										   Selenium Webdriver-无法在第二个子iframe（具有动态名称）中找到任何元素
										   MongoDb：无法优化管道：原因是：无法从BSON类型的javascript转换为Date

火花错误：无法找到存储在数据集中的类型的编码器

共1个答案

相关问题

热门标签

微信关注