我有几百个长文件,每个文件中都有重复的HTML块,我将不需要用于进一步的文本分析,因此我想去掉它们,因为它们在分析这些文件时占用了相当多宝贵的内存。
这些HTML块偶尔会被换行符打破。 与常规HTML一样,可移动块始终以开头,以
开头,以