提问者:小点点

PySpark中Panda的value_counts()的等价物是什么?


我有以下python/pandas命令:

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()

其中,我获取DataFrameGroupBy对象中所有列的值计数。

如何在PySpark中执行此操作?


共3个答案

匿名用户

大致相同:

spark_df.groupBy('column_name').count().orderBy('count')

在groupBy中,可以有多个由分隔的列

例如groupBy('column_1','column_2')

匿名用户

如果要控制订单,请尝试以下操作:

data.groupBy('col_name').count().orderBy('count', ascending=False).show()

匿名用户

试试这个:

spark_df.groupBy('column_name').count().show()