我有一个这样的熊猫数据框:
Column1 Column2 Column3 Column4 Column5
0 a 1 2 3 4
1 a 3 4 5
2 b 6 7 8
3 c 7 7
我现在要做的是获取一个包含Column1和新列A的新数据帧。此列A应包含从第2列-(到)n(其中n是从Column2到行尾的列数)的所有值,如下所示:
Column1 ColumnA
0 a 1,2,3,4
1 a 3,4,5
2 b 6,7,8
3 c 7,7
我如何才能最好地处理这个问题?
您可以调用应用
通过轴=1
到应用
行,然后将dtype转换为str
和加入
:
In [153]:
df['ColumnA'] = df[df.columns[1:]].apply(
lambda x: ','.join(x.dropna().astype(str)),
axis=1
)
df
Out[153]:
Column1 Column2 Column3 Column4 Column5 ColumnA
0 a 1 2 3 4 1,2,3,4
1 a 3 4 5 NaN 3,4,5
2 b 6 7 8 NaN 6,7,8
3 c 7 7 NaN NaN 7,7
这里我调用dropna
来摆脱NaN
,但是我们需要再次强制转换为int
,这样我们就不会以浮点数作为str。
我建议使用。分配
df2 = df.assign(ColumnA = df.Column2.astype(str) + ', ' + \
df.Column3.astype(str) + ', ' df.Column4.astype(str) + ', ' \
df.Column4.astype(str) + ', ' df.Column5.astype(str))
很简单,也许很长,但对我有用
如果你有很多列,比如-数据框中的1000列,并且你想根据特定的列名
合并几列,例如-Column2
在问题中,以及该列之后的任意数量的列(例如,这里在'Column2
之后有3列,包括OP要求的Column2
)。
我们可以使用获取列的位置。get_loc()
-在这里回答
source_col_loc = df.columns.get_loc('Column2') # column position starts from 0
df['ColumnA'] = df.iloc[:,source_col_loc+1:source_col_loc+4].apply(
lambda x: ",".join(x.astype(str)), axis=1)
df
Column1 Column2 Column3 Column4 Column5 ColumnA
0 a 1 2 3 4 1,2,3,4
1 a 3 4 5 NaN 3,4,5
2 b 6 7 8 NaN 6,7,8
3 c 7 7 NaN NaN 7,7
要删除NaN
,请使用. dropna()
或.fillna()
希望有帮助!