提问者:小点点

Tess4j-Pdf to Tiff to tesseract-“警告:分辨率0 dpi无效。改用70。”


我是usig tess4j(net. source ceforge.tess4j:tess4j:4.4.0)并尝试在pdf文件上OCR。因此,据我所知,我必须首先将pdf转换为tiff或png(任何建议?)

tesseract.doOCR(PdfUtilities.convertPdf2Tiff(inputPdfFile)); 

并收到以下警告:

Warning: Invalid resolution 0 dpi. Using 70 instead.

问题

  • 它对我的扫描结果有影响吗?(如果没有,好吧-我可以关闭警告)
  • 有没有办法手动设置DPI,或者转换Pdf为我处理这个?

共3个答案

匿名用户

如果图像元数据中没有分辨率信息,Tesseract会尝试自行估计分辨率,以便在结果中计算字体大小信息。

您可以尝试以下API来设置输入图像分辨率:

instance. setVariable("user_defined_dpi","300");

TessBaseAPISetSource分辨率(TessBaseAPI句柄,int ppi);

您可以通过以下方式抑制控制台输出:

instance. setVariable("debug_file","/dev/null");

匿名用户

在tess4j的5.4.0版本中,

instance. setVariable("user_defined_dpi","300");

而不是

instance.SetTessVariable("user_defined_dpi","300");

匿名用户

未设置默认分辨率。

补充nguyenq的回答:

instance.setVariable("user_defined_dpi", "300");

相关问题