设为首页收藏本站

美丽的网站-英华家电维修论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 481|回复: 0
打印 上一主题 下一主题

如何正确设置参数进步OCR识别率?

[复制链接]
跳转到指定楼层
楼主
发表于 2011-3-28 07:57:34 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
问:我是贵网站的忠实浏览者,这两天我碰到了一个头疼的题目,主要是时间很紧,快过年了,别人要得很急,请务必帮个忙。我现在扫描很多油印的文稿(文字不是很清楚),其中有文字、简单的图形和表格,但是扫描成可编辑文字后(.txt),识别率非常低,需要大量的修改工作。但是我现在急需出版文稿,我想问一下,用什么样的软件配合扫描仪可以达到较高的识别率,减少修改工作。   答:为了达到最佳的识别效果,确定合适的扫描参数非常重要。一般OCR是原稿应扫描为“黑白二值”,扫描文字的亮度和对比度对正确识别非常关键,我们可以通过“放大预览”对文稿中的几个文字进行取样扫描,从而对图像的亮度进行更为细致的调节。调节的工具是扫描仪工具内的“阀值”。对于分辨率,一般300DPI是最佳的分辨率。超过和低于300DPI都不能得到最理想的识别率。     对稿件进行识别前的预处理   OCR对原稿的要求是字符清楚、完整,无笔画中断;字符边沿锯齿不明显;文字摆放平行、水平。但原稿的情况是差异万千,所以需要在识别前,应做一些预先的处理。 比如去除杂点和图像。如文稿中含有图像,OCR是不能识别的,假如有图像存在,会影响OCR的文字切分。可使用“图像的块擦拭”工具将文档中的图像去除,同时将一些杂点去除。另外要留意倾斜校正和正确分栏 。由于OCR的辨识原理是采用字模的方式进行的,所以一定要留意稿件是否水平。对于版面较复杂的原稿,尽量不要采用“自动切分”。     采用适当的辨识方式   留意稿件是横排还是竖排,可选择合适的编排格式按扭,以保持对应。另外尚书OCR提供了简体、繁体、英文的识别方式,也应选择合适。不要总是抱怨识别软件不好,原稿的扫描和处理效果,对OCR识别率影响更大,确认以上的步骤后,相信你OCR的识别率会大大进步。
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏 分享分享 支持支持 反对反对
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|手机版|粤ICP备13038386号|粤ICP备13038386号|美丽的网站-英华家电维修论坛 ( 粤ICP备13038386号 )     站长邮箱 505966338@qq.com

GMT+8, 2025-5-5 00:03 , Processed in 0.135263 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表