遍历每一列，找到最大长度

提问者：小点点

遍历每一列，找到最大长度

我想从pyspark数据帧中获取每列的最大长度。

以下是示例数据帧：

from pyspark.sql.types import StructType,StructField, StringType, IntegerType

data2 = [("James","","Smith","36636","M",3000),
    ("Michael","Rose","","40288","M",4000),
    ("Robert","","Williams","42114","M",4000),
    ("Maria","Anne","Jones","39192","F",4000),
    ("Jen","Mary","Brown","","F",-1)
  ]

schema = StructType([ \
    StructField("firstname",StringType(),True), \
    StructField("middlename",StringType(),True), \
    StructField("lastname",StringType(),True), \
    StructField("id", StringType(), True), \
    StructField("gender", StringType(), True), \
    StructField("salary", IntegerType(), True) \
  ])
 
df = spark.createDataFrame(data=data2,schema=schema)

我尝试实现Scala中提供的解决方案，但无法转换它。

共1个答案

匿名用户

这会管用的

from pyspark.sql.functions import col, length, max


df=df.select([max(length(col(name))) for name in df.schema.names])

结果

编辑：供参考：转换为行（如这里所问，也在那里更新-数据框中每列的pyspark最大字符串长度）

df = df.select([max(length(col(name))).alias(name) for name in df.schema.names])
row=df.first().asDict()
df2 = spark.createDataFrame([Row(col=name, length=row[name]) for name in df.schema.names], ['col', 'length'])

输出：

遍历每一列，找到最大长度

共1个答案

相关问题

热门标签

遍历每一列，找到最大长度

共1个答案

相关问题

热门标签

微信关注