Scala火花映射函数引用了另一个数据帧

提问者：小点点

Scala火花映射函数引用了另一个数据帧

我有两个数据框架:

数据1：

+---+------+----+
| id|weight|time|
+---+------+----+
|  A|   0.1|   1|
|  A|   0.2|   2|
|  A|   0.3|   4|
|  A|   0.4|   5|
|  B|   0.5|   1|
|  B|   0.7|   3|
|  B|   0.8|   6|
|  B|   0.9|   7|
|  B|   1.0|   8|
+---+------+----+

DF2：

+---+---+-------+-----+
| id|  t|t_start|t_end|
+---+---+-------+-----+
|  A| t1|      0|    3|
|  A| t2|      4|    6|
|  A| t3|      7|    9|
|  B| t1|      0|    2|
|  B| t2|      3|    6|
|  B| t3|      7|    9|
+---+---+-------+-----+

我想要的输出是识别 df1 中每个时间戳的“t”，其中“t”的范围在 df2 中。

数据输出（_O）：

+---+------+----+---+
| id|weight|time| t |
+---+------+----+---+
|  A|   0.1|   1| t1|
|  A|   0.2|   2| t1|
|  A|   0.3|   4| t2|
|  A|   0.4|   5| t2|
|  B|   0.5|   1| t1|
|  B|   0.7|   3| t2|
|  B|   0.8|   6| t2|
|  B|   0.9|   7| t3|
|  B|   1.0|   8| t3|
+---+------+----+---+

到目前为止，我的理解是，我必须创建一个 udf，它将 'id 和 'time 列作为输入，通过引用 df2.filter（df2.id == df1.id， df1.time

我对Scala和Spark非常陌生，所以我想知道这个解决方案是否可能？




             共1个答案


                        

                
                    匿名用户

                




                
					
您不能为此使用 UDF，但您所要做的就是重用您已经定义的过滤条件来连接两个帧：
df1.join(
  df2,
  df2("id") === df1("id") && df1("time").between(df2("t_start"), df2("t_end"))
)


		      
                相关问题
                

																                
					
										   如何防止对数组中类对象的重复引用？
										   JavaHashMap内部数据结构在重新散列期间如何变化？
										   当HashMap增加其大小时，HashMap中值的索引会发生什么？
										   共享可观察数据的正确方式和地点是什么
										   RxJava：防止一个可观察对象发射，直到另一个可观察对象的数据被发射
										   Angular2/4：实时刷新数据
										   如何禁用RBP帧指针寄存器优化GCC时使用-O*？
										   ARM帧指针寄存器（r11）不断变化
										   main（）有时在x86上使用-fomit-frame指针保留帧指针
										   x86-64上C中的所有函数都需要堆栈帧吗？
										   如何在C中模拟堆栈帧？
										   具有两个具有相同值但不同桶索引的关键对象的Hashmap
										   C：编译器如何知道为每个堆栈帧分配多少内存？
										   SQL索引中的范围锁导致的服务器死锁
										   如何使用selenium WebDrive（java）抓取表中的数据？
										   如何切换多个帧使用硒和Java
										   frameToBe可用性AndSwitchToIt（）无法帮助切换到帧
										   如何恢复（垃圾收集）内存分配在scalarepl？
										   JavaFX-尝试获取GridPane列/行索引会给出InvocationTargetException
										   当我执行点击事件时，我想获得GridPane的索引

Scala火花映射函数引用了另一个数据帧

共1个答案

相关问题

热门标签

微信关注