我正在尝试从PDF中提取文本。首先,我尝试使用PDFBox。在输出中,我发现丢失了部分文本,在eclipse控制台上,我得到了以下警告
字体Helvetica中没有CID 49 (49)的Unicode映射
我想知道以上警告意味着什么。我在谷歌上搜索以了解其含义。但我仍然不清楚。如果有人提供一个明确的解释,这将非常有帮助。
对于同一个PDF,当我手动复制和粘贴PDF中的文本时,我得到了正方形或圆点形状。我想知道为什么会发生这种事。请解释一下。
您可以尝试使用org.apache.pdfbox.text.PDFTextStripper
包,该包具有可以自动返回pdf文档中所有可用文本的方法。字符串getText(PDDocument doc)
方法可以极大地帮助您。点击此链接浏览 API PDF 文本剥离器 .希望会有所帮助