提问者:小点点

使用 Python 从 Word (.docx) 中提取表的标题


我有一个 Word (.docx) 文档,其中标题/标题及其相应的表格在标题下方如下所示:

1.1.1.1 Table_Title_001

Name        Gautham

College     Oxford

University  Cambridge

1.1.1.2 Table_Title_002

Name        Krishnan

College     Harvard

University  Stanford

有没有办法使用 Python 提取每个表的标题?win32com或python-docx的文档对此不是很清楚。


共2个答案

匿名用户

我现在不在Windows上,所以我无法在本地测试它,但是Word表有一个Title属性,似乎是你要找的。

使用 win32com,它看起来像这样:

from win32com import client
word = client.Dispatch("Word.Application")
document = word.Documents.Open(path_to_docx)

titles = [table.Title for table in document.Tables]

匿名用户

使用python-docx,这些非常容易阅读。在python-docx中,这些实际上不是标题,它们是段落。首先,我建议您查看此站点,以便您了解其工作原理。

from docx import Document
doc = Document("wordfile.docx")
for para in doc.paragraphs:
     print(para.text)

这将打印出当前文档中的每个段落。如果您的文件中只有标题和表格,这将适合您