美丽的网站-英华家电维修论坛

标题: 如何正确设置参数进步OCR识别率? [打印本页]

作者: tytuuu    时间: 2011-3-28 07:57
标题: 如何正确设置参数进步OCR识别率?
问:我是贵网站的忠实浏览者,这两天我碰到了一个头疼的题目,主要是时间很紧,快过年了,别人要得很急,请务必帮个忙。我现在扫描很多油印的文稿(文字不是很清楚),其中有文字、简单的图形和表格,但是扫描成可编辑文字后(.txt),识别率非常低,需要大量的修改工作。但是我现在急需出版文稿,我想问一下,用什么样的软件配合扫描仪可以达到较高的识别率,减少修改工作。   答:为了达到最佳的识别效果,确定合适的扫描参数非常重要。一般OCR是原稿应扫描为“黑白二值”,扫描文字的亮度和对比度对正确识别非常关键,我们可以通过“放大预览”对文稿中的几个文字进行取样扫描,从而对图像的亮度进行更为细致的调节。调节的工具是扫描仪工具内的“阀值”。对于分辨率,一般300DPI是最佳的分辨率。超过和低于300DPI都不能得到最理想的识别率。     对稿件进行识别前的预处理   OCR对原稿的要求是字符清楚、完整,无笔画中断;字符边沿锯齿不明显;文字摆放平行、水平。但原稿的情况是差异万千,所以需要在识别前,应做一些预先的处理。 比如去除杂点和图像。如文稿中含有图像,OCR是不能识别的,假如有图像存在,会影响OCR的文字切分。可使用“图像的块擦拭”工具将文档中的图像去除,同时将一些杂点去除。另外要留意倾斜校正和正确分栏 。由于OCR的辨识原理是采用字模的方式进行的,所以一定要留意稿件是否水平。对于版面较复杂的原稿,尽量不要采用“自动切分”。     采用适当的辨识方式   留意稿件是横排还是竖排,可选择合适的编排格式按扭,以保持对应。另外尚书OCR提供了简体、繁体、英文的识别方式,也应选择合适。不要总是抱怨识别软件不好,原稿的扫描和处理效果,对OCR识别率影响更大,确认以上的步骤后,相信你OCR的识别率会大大进步。




欢迎光临 美丽的网站-英华家电维修论坛 (http://www.bsss.info/) Powered by Discuz! X3.2