使用pdf管道工提取段落

提问者：小点点

使用pdf管道工提取段落

我正在使用pdfPlumber从pdf中提取文本。我能够提取文本行，但我无法提取段落。这是我当前的代码。

我要提取的文本示例：

段落标题

Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Enim facilisis gravida neque convallis a cras semper auctor neque.

with pdfplumber.open(path_to_pdf) as pdf:
   pageno = 1
   page = pdf.pages[pageno]
   text = page.extract_text(x_tolerance=5)

lines = [x.lower().strip() for x in lines]
print(lines)

我如何改变它来提取段落？现在这会给我这个。基本上它是将每一行添加到一个数组中。['段落标题'，'lorem ipsum dolor sit amet，consectetur adipiscing elit，sed do eiusmod temor不必要的ut labore et'，'dolore magna aliqua. enim设备是gravida neque conque是一个cras semper拍卖器neque。]

I want it to give me this. It would add the paragraph title and then paragraph to the array. ['Paragraph Title', 'Lorem ipsum dolor sit amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Enim facilisis gravida neque convallis a cras semper auctor neque. ']

共1个答案

匿名用户

据我所知，pdf文本提取只是rubbish.You只获取文本行，没有段落或列。表格可能有很棒的功能，就像docx表格一样，但在原始段落布局中没有简单的数据提取。