TesseractOCR无法正确训练图像

提问者：小点点

我在训练宇宙魔方OCR时面临以下问题。我正在为窗口使用宇宙魔方3.02。

我有一个要训练的字符数据集。我已经编写了一个C程序来从数据集中读取每个字符，裁剪它

我正在附加图像供您参考。问题是当我在Tesseract中训练图像时，我会在控制台上获得以下输出。

F：\测试

尽管图像中有36个不同的单词或字符，宇宙魔方说它只能为9个字符生成训练数据。它还说它找到了100个好斑点。我不知道为什么会出现这个问题。盒子文件中有图像中所有100个字符的标签。

请帮帮忙！

谢啦

共2个答案

匿名用户

根据训练指南，训练数据集应该是真实的。请注意，正如您所提到的，它生成了9个单词的训练数据，而不是9个字符的训练数据。可能它已经识别了所有字符。您可以使用此工具检查生成的. traineddata文件，以分析tesseract训练的字符是什么。

匿名用户

根据培训维基，“不要混合字体IN图像文件（准确地说，是在单个. tr文件中。）这将导致特征在聚类时被丢弃，从而导致识别错误。”