如何扫描表格

发布网友 发布时间:2022-04-24 12:24

我来回答

2个回答

热心网友 时间:2023-11-03 19:30

所需工具:扫描仪;word2007 、 Excel2007 ;尚书七号OCR 软件。
1. 扫描表格。首先依次把表格扫描成TIF 图像文件备用。扫描时300dpi 就可以,太高的话识别率反而下降,而且处理时间加长。文件名最好与页数相关,这样在查对起来时也更加方便。在预扫时确定扫描的边界,没有用的部分不用扫描,只选择表格体就可以了。
2. 进行表格识别。现在轮到本次任务的主角尚书七号OCR 识别软件登场了!我个人认为它的表格识别能力还是很强的。一般在买扫描仪时附送,没有的话可以到网上下载一个。在尚书七号软件中,点“ 文件→ 打开图像” ,找到刚才扫描的表格图像。
这时在右侧图像区中单击左键,选“ 编辑→ 旋转图像→ 右转90 度” 或按“ Ctrl+R ” 组合键,将图像摆正(这一步根据实际情况进行左旋还是右旋)。
现在图像已摆正了,不过还有一些倾斜。这时点“ 编辑→ 自动倾斜校正” 或“ Ctrl+D ” 组合键对原稿进行倾斜校正。这一步骤非常重要,直接影响到表格识别率。下面进行表格的识别。点“ 识别→ 开始识别” (图1 ),或按快捷键“ F8 ” ,几秒种后识别结果已跃然屏幕上。

图1 尚书七号软件
下面对识别后的表格文字进行初步校正。一般怀疑有误的地方,软件用红色表示出来。当鼠标放上去时会有图像提示,方便进行校正。在删改后表格线可能有所变动,不用管它。对于0 ~9 的识别错误,有的必须先行加以纠正,例如“ 3 ” 识别成“ :{ ” ,“ 7 ” 识别成“ / ” ;有的可以在Word 中用查找替换的方法加以改正,比如,“ 0 ” 识别成字母“ O ” ,“ 1 ” 识别成字母“ l ” ,“ 5 ” 识别成字母“ s ” 。这样,80% 的错误可以在这里消灭。数字间有空格也不用管它,可以进行后期处理(图2 )。

图2 尚书七号软件
3. 在 Word 中进行纠错并生成Excel 数据源。将在尚书七号中识别出来的表格和文字复制、粘贴到Word2007中(2000 及以上版本即可)。页面不妨设置为横向A3 纸,因为我们只是利用Word 进行纠错并生成TXT 文件,这样粘贴过来的表格才不致于折行。表头部分不需要粘贴。这时候再把非常明显的错误手动纠正(别忘了时时存盘)。
每张表格识别后都做以上处理,待所有表格都粘贴过来以后,利用Word 的查找、替换功能进行纠错。具体操作如下:选择制表符“ ┣ ” ,按“ Ctrl+C ” 组合键;点“ 编辑→ 替换” ,在“ 查找内容” 文本框内按“ Ctrl+V ” 组合键,“ 替换为” 文本框内不填任何字符,点“ 全部替换” ,就消掉了所有的“ ┣ ” 符号。
类似地,我们将“ ━ ” 、“ ╋ ” 、“ ┫ ” 都消掉。这样做的目的就是将每行之间产生的表格线去掉。下面再用此功能,将“ .” 及“ 。” 替换成小数点“ . ” ,将字母“ O ” 、“ l ” 、“ s ” 分别替换成数字“ 0 ” 、“ 1 ” 、“ 5 ” ,再有把所有的空格也用这种方法去掉。“ ┃ ” 可以保留,也可以替换成英文的“ , ” 作为间隔符。这样,表格就变成了下面的样子:

接着把这个文件另存为纯文本文件。
4. 数据导入Excel 。打开Excel 软件,点“ 数据→ 导入外部数据→ 导入数据” ,“ 文件类型” 选“ 文本文件” ,找到刚才保存的那个纯文本文件,点“ 打开” 进入文本导入向导(图3 )。

图3 文本导入向导
步骤1 中默认的“ 原始数据类型” 就是“ 分隔符号” ,直接点“ 下一步(N )” 。
在步骤2 中,“ 分隔符号” 文本框中单击左键,输入英文符号“ , ” ,点“ 下一步(N )” 。
步骤3 中,在“ 不导入此列” 前收音机钮上点左键,忽略最前面一列。点“ 完成” 。
再单击“ 确定” 。这样,数据就被导入到Excel 中来啦!
下面,再对导入到Excel 中的数据进行校验、纠错。这一步骤比较好做,因为在Excel2007中数字是右对齐的,如果在前面的步骤中有的数据错误没有被纠正,则会被认为是文本数据,左对齐。这样就可以轻松地将它们挑出来进行纠正(图4 )。

图4
因为现在级别不够,无法上传图片,不好意思

热心网友 时间:2023-11-03 19:30

比如云脉表格识别技术,利用光学字符识别(ocr)技术以及表格核心处理技术,可根据各类纸质票据、表格、单证等排版特点,按区域分别将不同的内容识别并提取成字符、图像等电子数据。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com