如何在Python中替换大文件中的每个HTML部分？

提问者：小点点

如何在Python中替换大文件中的每个HTML部分？

我有几百个长文件，每个文件中都有重复的HTML块，我将不需要用于进一步的文本分析，因此我想去掉它们，因为它们在分析这些文件时占用了相当多宝贵的内存。

这些HTML块偶尔会被换行符打破。与常规HTML一样，可移动块始终以开头，以结尾。

我的方法如下:

content = inputfile.read()
pattern = re.compile('<!DOCTYPE.*[\s\S]*<\/html>')
match = pattern.findall(content)

但是，这总是只返回一个单一的匹配。正则表达式正确地标识了的第一个实例和的最后一个实例。因此，即使我在文档中有10,000个HTML块要使用

content = re.sub(pattern, '', content)

只找到了一个匹配项，因此，几乎我的整个文件都被删除了。

我怎样才能在整个文档中分别找到所有的HTML块呢？

附注:我用的是Python3.x，我的操作系统是Windows10。




             共1个答案


                        

                
                    匿名用户

                




                
					
默认情况下，正则表达式是贪婪的。 这意味着它会搜索直到找到最后一个实例。 按以下方式更改表达式:
pattern = re.compile('<!DOCTYPE.*?<\/html>', flags=re.DOTALL)


		      
                相关问题
                

																                
					
										   Android：在模块jefied-play-services-测量和jefied-play-services-测量-impl中发现重复类
										   在Hashmap中查找匹配的键/值对
										   如何迭代Hashmap并与同一Hashmap中的其他键进行组合以比较它们的对象
										   HashCode-如果相等的对象碰巧在同一个桶中散列会发生什么？
										   如何防止对数组中类对象的重复引用？
										   如何以及何时在HashMap中完成重新散列
										   在hashmap或hashtable中重新散列的成本
										   HashMap如何识别内部数组中的哪些位置包含元素？
										   当HashMap增加其大小时，HashMap中值的索引会发生什么？
										   @BeforeClass在ktor测试类中不工作
										   Jest vanilla JavaScript JSDOM刷新失败，切换beforeAll到before每一个后的第二次测试中断
										   在笑话中，定义全局变量是否与在BeforeAll中定义相同？
										   静态编程语言中@BeforeAll的正确解决方法是什么
										   线程“main”java. lang.NoClassDefFoundError中的异常：在Intellij[Spring boot]中
										   线程“main”java. lang.NoClassDefFoundError中的异常：org/apache/log4j/ProvisionNode
										   异步管道是否从服务中定义并从组件变量指向的可观察对象取消订阅？
										   结合主体时不更新在模板中的异步管道可观察
										   组件中的Angular 2重复订阅
										   应该在ngOnDestroy（）中将Angular组件变量设置为null吗？
										   Angular2处理非组件类中的订阅

如何在Python中替换大文件中的每个HTML部分？

共1个答案

相关问题

热门标签

微信关注