在python熊猫中将多个列值合并为一列

提问者：小点点

在python熊猫中将多个列值合并为一列

我有一个这样的熊猫数据框：

   Column1  Column2  Column3  Column4  Column5
 0    a        1        2        3        4
 1    a        3        4        5
 2    b        6        7        8
 3    c        7        7

我现在要做的是获取一个包含Column1和新列A的新数据帧。此列A应包含从第2列-（到）n（其中n是从Column2到行尾的列数）的所有值，如下所示：

  Column1  ColumnA
0   a      1,2,3,4
1   a      3,4,5
2   b      6,7,8
3   c      7,7

我如何才能最好地处理这个问题？

匿名用户

您可以调用应用通过轴=1到应用行，然后将dtype转换为str和加入：

In [153]:
df['ColumnA'] = df[df.columns[1:]].apply(
    lambda x: ','.join(x.dropna().astype(str)),
    axis=1
)
df

Out[153]:
  Column1  Column2  Column3  Column4  Column5  ColumnA
0       a        1        2        3        4  1,2,3,4
1       a        3        4        5      NaN    3,4,5
2       b        6        7        8      NaN    6,7,8
3       c        7        7      NaN      NaN      7,7

这里我调用dropna来摆脱NaN，但是我们需要再次强制转换为int，这样我们就不会以浮点数作为str。

匿名用户

我建议使用。分配

df2 = df.assign(ColumnA = df.Column2.astype(str) + ', ' + \
  df.Column3.astype(str) + ', ' df.Column4.astype(str) + ', ' \
  df.Column4.astype(str) + ', ' df.Column5.astype(str))

很简单，也许很长，但对我有用

匿名用户

如果你有很多列，比如-数据框中的1000列，并且你想根据特定的列名合并几列，例如-Column2在问题中，以及该列之后的任意数量的列（例如，这里在'Column2之后有3列，包括OP要求的Column2）。

我们可以使用获取列的位置。get_loc（）-在这里回答

source_col_loc = df.columns.get_loc('Column2') # column position starts from 0

df['ColumnA'] = df.iloc[:,source_col_loc+1:source_col_loc+4].apply(
    lambda x: ",".join(x.astype(str)), axis=1)

df

Column1  Column2  Column3  Column4  Column5  ColumnA
0       a        1        2        3        4  1,2,3,4
1       a        3        4        5      NaN    3,4,5
2       b        6        7        8      NaN    6,7,8
3       c        7        7      NaN      NaN      7,7

要删除NaN，请使用. dropna（）或.fillna（）

希望有帮助！

在python熊猫中将多个列值合并为一列

共3个答案

相关问题

热门标签

在python熊猫中将多个列值合并为一列

共3个答案

相关问题

热门标签

微信关注