如何扫描表格

发布网友发布时间：2022-04-24 12:24

共2个回答

热心网友时间：2023-11-03 19:30

所需工具：扫描仪；word2007 、 Excel2007 ；尚书七号OCR 软件。
1. 扫描表格。首先依次把表格扫描成TIF 图像文件备用。扫描时300dpi 就可以，太高的话识别率反而下降，而且处理时间加长。文件名最好与页数相关，这样在查对起来时也更加方便。在预扫时确定扫描的边界，没有用的部分不用扫描，只选择表格体就可以了。
2. 进行表格识别。现在轮到本次任务的主角尚书七号OCR 识别软件登场了！我个人认为它的表格识别能力还是很强的。一般在买扫描仪时附送，没有的话可以到网上下载一个。在尚书七号软件中，点“ 文件→ 打开图像” ，找到刚才扫描的表格图像。
这时在右侧图像区中单击左键，选“ 编辑→ 旋转图像→ 右转90 度” 或按“ Ctrl+R ” 组合键，将图像摆正（这一步根据实际情况进行左旋还是右旋）。
现在图像已摆正了，不过还有一些倾斜。这时点“ 编辑→ 自动倾斜校正” 或“ Ctrl+D ” 组合键对原稿进行倾斜校正。这一步骤非常重要，直接影响到表格识别率。下面进行表格的识别。点“ 识别→ 开始识别” （图1 ），或按快捷键“ F8 ” ，几秒种后识别结果已跃然屏幕上。

图1 尚书七号软件
下面对识别后的表格文字进行初步校正。一般怀疑有误的地方，软件用红色表示出来。当鼠标放上去时会有图像提示，方便进行校正。在删改后表格线可能有所变动，不用管它。对于0 ～9 的识别错误，有的必须先行加以纠正，例如“ 3 ” 识别成“ ：{ ” ，“ 7 ” 识别成“ / ” ；有的可以在Word 中用查找替换的方法加以改正，比如，“ 0 ” 识别成字母“ O ” ，“ 1 ” 识别成字母“ l ” ，“ 5 ” 识别成字母“ s ” 。这样，80% 的错误可以在这里消灭。数字间有空格也不用管它，可以进行后期处理（图2 ）。

图2 尚书七号软件
3. 在 Word 中进行纠错并生成Excel 数据源。将在尚书七号中识别出来的表格和文字复制、粘贴到Word2007中（2000 及以上版本即可）。页面不妨设置为横向A3 纸，因为我们只是利用Word 进行纠错并生成TXT 文件，这样粘贴过来的表格才不致于折行。表头部分不需要粘贴。这时候再把非常明显的错误手动纠正（别忘了时时存盘）。
每张表格识别后都做以上处理，待所有表格都粘贴过来以后，利用Word 的查找、替换功能进行纠错。具体操作如下：选择制表符“ ┣ ” ，按“ Ctrl+C ” 组合键；点“ 编辑→ 替换” ，在“ 查找内容” 文本框内按“ Ctrl+V ” 组合键，“ 替换为” 文本框内不填任何字符，点“ 全部替换” ，就消掉了所有的“ ┣ ” 符号。
类似地，我们将“ ━ ” 、“ ╋ ” 、“ ┫ ” 都消掉。这样做的目的就是将每行之间产生的表格线去掉。下面再用此功能，将“ ．” 及“ 。” 替换成小数点“ . ” ，将字母“ O ” 、“ l ” 、“ s ” 分别替换成数字“ 0 ” 、“ 1 ” 、“ 5 ” ，再有把所有的空格也用这种方法去掉。“ ┃ ” 可以保留，也可以替换成英文的“ , ” 作为间隔符。这样，表格就变成了下面的样子：

接着把这个文件另存为纯文本文件。
4. 数据导入Excel 。打开Excel 软件，点“ 数据→ 导入外部数据→ 导入数据” ，“ 文件类型” 选“ 文本文件” ，找到刚才保存的那个纯文本文件，点“ 打开” 进入文本导入向导（图3 ）。

图3 文本导入向导
步骤1 中默认的“ 原始数据类型” 就是“ 分隔符号” ，直接点“ 下一步（N ）” 。
在步骤2 中，“ 分隔符号” 文本框中单击左键，输入英文符号“ , ” ，点“ 下一步（N ）” 。
步骤3 中，在“ 不导入此列” 前收音机钮上点左键，忽略最前面一列。点“ 完成” 。
再单击“ 确定” 。这样，数据就被导入到Excel 中来啦！
下面，再对导入到Excel 中的数据进行校验、纠错。这一步骤比较好做，因为在Excel2007中数字是右对齐的，如果在前面的步骤中有的数据错误没有被纠正，则会被认为是文本数据，左对齐。这样就可以轻松地将它们挑出来进行纠正（图4 ）。

图4
因为现在级别不够，无法上传图片，不好意思

热心网友时间：2023-11-03 19:30

比如云脉表格识别技术，利用光学字符识别（ocr）技术以及表格核心处理技术，可根据各类纸质票据、表格、单证等排版特点，按区域分别将不同的内容识别并提取成字符、图像等电子数据。

全部栏目

如何扫描表格