我有以下python/pandas命令:
df.groupby('Column_Name').agg(lambda x: x.value_counts().max()
其中,我获取DataFrameGroupBy
对象中所有列的值计数。
如何在PySpark中执行此操作?
大致相同:
spark_df.groupBy('column_name').count().orderBy('count')
在groupBy中,可以有多个由,
分隔的列
例如groupBy('column_1','column_2')
如果要控制订单,请尝试以下操作:
data.groupBy('col_name').count().orderBy('count', ascending=False).show()
试试这个:
spark_df.groupBy('column_name').count().show()