更简单的python，相当于R风格的grep，包括多个要匹配的内容

提问者：小点点

更简单的python，相当于R风格的grep，包括多个要匹配的内容

这个问题几乎是这个问题的翻版，有一些调整。

获取以下数据帧，并获取其中包含“sch”或“oa”的列的位置。在R中非常简单：

df <- data.frame(cheese = rnorm(10),
                 goats = rnorm(10), 
                 boats = rnorm(10), 
                 schmoats = rnorm(10), 
                 schlomo = rnorm(10),
                 cows = rnorm(10))

grep("oa|sch", colnames(df))

[1] 2 3 4 5

write.csv(df, file = "df.csv")

现在在python中，我可以使用一些详细的列表理解：

import pandas as pd
df = pd.read_csv("df.csv", index_col = 0)
matches = [i for i in range(len(df.columns)) if "oa" in df.columns[i] or "sch" in df.columns[i]]

matches
Out[10]: [1, 2, 3, 4]

我想知道在python中是否有比上面的列表理解示例更好的方法。具体来说，如果我有几十个字符串要匹配呢。在R中，我可以做类似的事情

regex <- paste(vector_of_strings, sep = "|")
grep(regex, colnames(df))

但如何在python中使用列表理解来实现这一点并不明显。也许我可以使用字符串操作以编程方式创建在列表内部执行的字符串，以处理所有重复的或语句？




             共2个答案


                        

                
                    匿名用户

                




                
					
使用熊猫的数据帧。要运行相同正则表达式的筛选器：
df.filter(regex = "oa|sch").columns
# Index(['goats', 'boats', 'schmoats', 'schlomo'], dtype='object')

df.filter(regex = "oa|sch").columns.values
# ['goats' 'boats' 'schmoats' 'schlomo']
数据
import numpy as np
import pandas as pd

np.random.seed(21419)

df = pd.DataFrame({'cheese': np.random.randn(10),
                   'goats': np.random.randn(10), 
                   'boats': np.random.randn(10), 
                   'schmoats': np.random.randn(10), 
                   'schlomo': np.random.randn(10),
                   'cows': np.random.randn(10)})
对于要搜索的多个字符串：
rgx = "|".join(list_of_strings)

df.filter(regex = rgx)
若要返回索引，请考虑来自@ Divakar的这个向量化的NUMPY解决方案。请注意，与R不同，Python是零索引的。
def column_index(df, query_cols):
    cols = df.columns.values
    sidx = np.argsort(cols)
    return sidx[np.searchsorted(cols,query_cols,sorter=sidx)]

column_index(df, df.filter(regex="oa|sch").columns)
# [1 2 3 4] 
				

                
                
            

            
                        

                
                    匿名用户

                




                
					
也许您正在寻找re模块？
import re
pattern = re.compile("oa|sch")
[i for i in range(len(df.columns)) if pattern.search(df.columns[i])]
# [1, 2, 3, 4]
也许与R的矢量化相比不是最好的，但是列表理解应该是好的。
如果要将字符串连接在一起，可以执行以下操作
"|".join(("oa", "sch"))
# 'oa|sch'


		      
                相关问题
                

																                
					
										   Android：在模块jefied-play-services-测量和jefied-play-services-测量-impl中发现重复类
										   HashMap如何跟踪entrySet等字段
										   在Hashmap中查找匹配的键/值对
										   @BeforeClass在ktor测试类中不工作
										   Jest vanilla JavaScript JSDOM刷新失败，切换beforeAll到before每一个后的第二次测试中断
										   玩笑未解决的promise不会失败
										   在笑话中，定义全局变量是否与在BeforeAll中定义相同？
										   静态编程语言中@BeforeAll的正确解决方法是什么
										   线程“main”java. lang.NoClassDefFoundError中的异常：在Intellij[Spring boot]中
										   线程“main”java. lang.NoClassDefFoundError中的异常：org/apache/log4j/ProvisionNode
										   log4j2 java. lang.NoClassDefFoundError：org/apache/log/log4j/LogManager
										   AngularJs-RXJS可观察退订
										   组件中的Angular 2重复订阅
										   AngularJS-$销毁是否删除事件侦听器？
										   服务如何订阅当前路由的ParamMap？
										   应该在ngOnDestroy（）中将Angular组件变量设置为null吗？
										   *具有多个异步管道变量的ngIF
										   我必须取消订阅ActivatedRoute（例如参数）可观察对象吗？
										   Angular：定期请求时如何取消订阅
										   Angular2处理非组件类中的订阅

更简单的python，相当于R风格的grep，包括多个要匹配的内容

共2个答案

相关问题

热门标签

微信关注