我在训练宇宙魔方OCR时面临以下问题。我正在为窗口使用宇宙魔方3.02。
我有一个要训练的字符数据集。我已经编写了一个C程序来从数据集中读取每个字符,裁剪它
我正在附加图像供您参考。问题是当我在Tesseract中训练图像时,我会在控制台上获得以下输出。
F:\测试
尽管图像中有36个不同的单词或字符,宇宙魔方说它只能为9个字符生成训练数据。它还说它找到了100个好斑点。我不知道为什么会出现这个问题。盒子文件中有图像中所有100个字符的标签。
请帮帮忙!
谢啦
根据训练指南,训练数据集应该是真实的。请注意,正如您所提到的,它生成了9个单词的训练数据,而不是9个字符的训练数据。可能它已经识别了所有字符。您可以使用此工具检查生成的. traineddata
文件,以分析tesseract训练的字符是什么。
根据培训维基,“不要混合字体IN图像文件(准确地说,是在单个. tr文件中。)这将导致特征在聚类时被丢弃,从而导致识别错误。”