我有一个 Word (.docx) 文档,其中标题/标题及其相应的表格在标题下方如下所示:
1.1.1.1 Table_Title_001
Name Gautham
College Oxford
University Cambridge
1.1.1.2 Table_Title_002
Name Krishnan
College Harvard
University Stanford
有没有办法使用 Python 提取每个表的标题?win32com或python-docx的文档对此不是很清楚。
我现在不在Windows上,所以我无法在本地测试它,但是Word表有一个Title属性,似乎是你要找的。
使用 win32com
,它看起来像这样:
from win32com import client
word = client.Dispatch("Word.Application")
document = word.Documents.Open(path_to_docx)
titles = [table.Title for table in document.Tables]
使用python-docx,这些非常容易阅读。在python-docx中,这些实际上不是标题,它们是段落。首先,我建议您查看此站点,以便您了解其工作原理。
from docx import Document
doc = Document("wordfile.docx")
for para in doc.paragraphs:
print(para.text)
这将打印出当前文档中的每个段落。如果您的文件中只有标题和表格,这将适合您