我需要从一堆文档中替换一些句子。所有句子几乎相同,但在某些文档中是中断、缺失或添加的单词/字符。我试图匹配第一个和最后一个单词,但这不准确。
有没有办法或者有没有人知道如何替换几乎匹配的句子?
示例假设我想替换下面的句子。
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt
这里有一个断句
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt
一个缺失的逗号
Lorem ipsum dolor sit amet, consetetur sadipscing elitr sed diam nonumy eirmod tempor invidunt
和遗漏的词语
Lorem ipsum dolor sit amet sadipscing elitr, sed diam nonumy invidunt
未测试,但查看similar_text();
<?php
$threshold = 80; //Percentage threshold
$par1 = "Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt";
$par2 = "Lorem ipsum dolor sit amet, consetetur sadipscing elitr,
sed diam nonumy eirmod tempor invidunt";
$percent = similar_text($par1,$par2);
if ($percent < $threshold) {
//Correct the incorrect paragraph
$par2 = $par1;
}
?>