文本 OCR 处理不正确
创建可检索文本的文件时,文本可能无法正确进行 OCR 处理。在这种情况下,请检查 OCR 处理的语言设置和所使用的原稿是否合适。
您可以根据原稿更改语言设置,并通过使用包含机器可识别的字符类型和字体的原稿以及适合 OCR 处理的原稿来提高处理精度。
须知
即使使用适当的语言设置和原稿,OCR 处理也不正确时
对于每页文本量较大的原稿,处理精度可能无法提高。
创建 Word 格式的 OOXML 文件时,请注意以下事项:
根据背景颜色、字体、字体大小、斜体和其他因素,文本可能会被替换为非预期的字符,或者字符可能会丢失。
段落、换行符和表格不会被复制。
某些图像(例如图表、照片和印章)可能会被识别为文本并替换为文本。
OCR 处理的设置和语言标准
字符识别的标准语言设置 | 设置 OCR 处理时选择的语言是字符识别的基础。 创建可检索文本的文件(OCR 处理) |
可识别的亚洲语言 | 日语、中文(简体)、中文(繁体)、韩语 * 关于字符类型和字体,请参见以下内容: |
可识别的欧洲语言和语族 | 语言 英语、法语、意大利语、德语、西班牙语、荷兰语、葡萄牙语、阿尔巴尼亚语、加泰罗尼亚语、丹麦语、芬兰语、冰岛语、挪威语、瑞典语、克罗地亚语、捷克语、匈牙利语、波兰语、斯洛伐克语、爱沙尼亚语、拉脱维亚语、立陶宛语、俄语、希腊语、土耳其语、斯洛文尼亚语*1、罗马尼亚语*1、保加利亚语*1、希伯来语*1 语族 西欧语言 (ISO)*2、中欧语言 (ISO)*3、波罗的语 (ISO)*4 * 关于字符类型和字体,请参见以下内容: |
*1 只能与 [OCR(欧洲语言)] 一起选择。
*2 包括“English”(英语)、“French”(法语)、“Italian”(意大利语)、“German”(德语)、“Spanish”(西班牙语)、“Dutch”(荷兰语)、“Portuguese”(葡萄牙语)、“Albanian”(阿尔巴尼亚语)、“Catalan”(加泰罗尼亚语)、“Danish”(丹麦语)、“Finnish”(芬兰语)、“Icelandic”(冰岛语)、“Norwegian”(挪威语)和“Swedish”(瑞典语)。
*3 包括“English”(英语)、“Croatian”(克罗地亚语)、“Czech”(捷克语)、“Hungarian”(匈牙利语)、“Polish”(波兰语)和“Slovak”(斯洛伐克语)。
*4包括“English”(英语)、“Estonian”(爱沙尼亚语)、“Latvian”(拉脱维亚语)和“Lithuanian”(立陶宛语)。
可识别的字符类型和字体(亚洲语言)
可识别的字符类型 | 日语 字母、数字、汉字*1、符号、平假名、片假名 中文(简体) GB2312-80(字母、数字、汉字和符号) 中文(繁体) Big5(字母、数字、汉字和符号) 韩语 KSC5601(字母、数字、汉字、符号和韩文) |
可识别的字体 | 多字体支持(推荐:Mincho) * 无法识别斜体字符。 |
可识别的字体大小 | 8 磅到 48 磅 |
OCR 处理后使用的字体*2 | 日语 亚洲语言字符:MS Mincho 欧洲语言字符:Century 中文(简体) 亚洲语言字符:SimSun 欧洲语言字符:Calibri 中文(繁体) 亚洲语言字符:PMingLiU 欧洲语言字符:Calibri 韩语 亚洲语言字符:Malgun Gothic 欧洲语言字符:Calibri |
*1所有 JIS 1 标准汉字和部分 JIS 2 标准汉字
*2仅当创建 Word 格式的 OOXML 文件时
可识别的字符类型和字体(欧洲语言)
可识别的字符类型 | 字母、识别语言特有的字符*1、数字、符号 |
可识别的字体 | 多字体支持(推荐:Times、Century、Arial)*2 * 可识别斜体字符。 |
可识别的字体大小 | 6 磅到 72 磅 |
OCR 处理后使用的字体*3 | Calibri * 斜体字无法复制。 |
*1根据语言的不同,某些独特的字符可能无法识别。
*2[OCR(欧洲语言)] 可以识别 Arial、Times New Roman 和 Courier New 字体。
*3仅当创建 Word 格式的 OOXML 文件时
适合 OCR 处理的原稿
通过使用适合 OCR 处理的原稿,可以提高 OCR 处理精度。
原稿文件格式 | 已打印文档和文字处理文档 由文本、图表、照片和/或表格组成且不倾斜的原稿 |
文本格式 | 横向书写或纵向书写(也可以识别包含横向书写和纵向书写的文档)*1 具有一到三列且没有复杂内容的文档 |
字体大小 | 8 磅到 40 磅 |
表格格式*2 | 符合以下条件的表格: 由实线边框线组成的矩形格式 不超过 32 列 不超过 32 行 |
*1欧洲语言和韩语文本仅可以识别横向书写。
*2仅当创建 Word 格式的 OOXML 文件时