从字符串列中提取子字符串

提问者：小点点

从字符串列中提取子字符串

我有这样的数据帧:

name      link
apple    example1.com/dsa/es?id=2812168&width=1200/web/map&resize.html
banana.  example2.com/es?id=28132908&width=1220/web/map_resize.html
orange.  example3.com/es?id=3209908&width=1120/web&map_resize.html

每个名称的ID都埋藏在链接中，链接可能具有不同的结构。但是，我知道模式是'id='+'what I want'+'&'

我想知道，有没有一种方法可以从link中提取id，并将其放回数据框架，以获得以下内容:

name      link
apple    2812168
banana.  28132908
orange.  3209908

我试着用这个:

df['name'] = df['name'].str.extract(r'id=\s*([^\.]*)\s*\\&', expand=False)

但它返回一个包含所有NaN的列

而且，可能有不止一个&；在链接中

共3个答案

匿名用户

我们可以使用正向后视和正向前视:

df['link'] = df['link'].str.extract('(?<=id\=)(.*)(?=\&width)')


      name      link
0    apple   2812168
1  banana.  28132908
2  orange.   3209908

详细信息:

（？<<=id\=):id=
(.*):一切
（？=\&width）:&width

匿名用户

我认为ID总是数字，所以这有点干净:

df["link"] = df['link'].str.extract(r'id=(\d+)&', expand=False)
print(df)
#     name      link
#0   apple   2812168
#1  banana  28132908
#2  orange   3209908

匿名用户

让tri拆分

df['link'].str.split('id=').str[1].str.split('&').str[0]
0     2812168
1    28132908
2     3209908
Name: link, dtype: object

从字符串列中提取子字符串

共3个答案

相关问题

热门标签

从字符串列中提取子字符串

共3个答案

相关问题

热门标签

微信关注