提问者:小点点

方块/点/空白作为输出,同时手动从PDF复制和粘贴文本


我正在尝试从PDF中提取文本。首先,我尝试使用PDFBox。在输出中,我发现丢失了部分文本,在eclipse控制台上,我得到了以下警告

字体Helvetica中没有CID 49 (49)的Unicode映射

我想知道以上警告意味着什么。我在谷歌上搜索以了解其含义。但我仍然不清楚。如果有人提供一个明确的解释,这将非常有帮助。

对于同一个PDF,当我手动复制和粘贴PDF中的文本时,我得到了正方形或圆点形状。我想知道为什么会发生这种事。请解释一下。


共1个答案

匿名用户

您可以尝试使用org.apache.pdfbox.text.PDFTextStripper包,该包具有可以自动返回pdf文档中所有可用文本的方法。字符串getText(PDDocument doc)方法可以极大地帮助您。点击此链接浏览 API PDF 文本剥离器 .希望会有所帮助