如果OCR(可检索文本)未正确执行

本节介绍创建可检索PDF/XPS/OOXML文件时“OCR(可检索文本)”功能如何工作,以及适用于“OCR(可检索文本)”功能的文件格式。
如果无法获取OCR(可检索文本)正确的结果,请参考下面的说明。

OCR(可检索文本)

可以使用OCR处理的字符如下表所列。如果OCR处理无法正常工作,请检查字符类型。
须知
根据原稿的文本和文件格式,即使根据原稿使用的语言执行OCR,也可能无法获取正确的结果。
项目
文件格式
PDF/XPS/PowerPoint
Word
识别语言
根据在“设置/注册”的[参数选择]的[切换语言/键盘]中选择的语言,字符会被识别为以下一种语言或语言组*1 *2
按[更改]从以下语言或语言组中选择原稿使用的语言。根据所选语言进行字符识别。
亚洲语言
识别以下语言中的文本:
Japanese(日语)、中文(简体)、中文(繁体)、Korean(韩语)
欧洲语言
识别以下语言或语言组中的文本
语言
English(英语)、French(法语)、Italian(意大利语)、German(德语)、Spanish(西班牙语)、Dutch(荷兰语)、Portuguese(葡萄牙语)、Albanian(阿尔巴尼亚语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Finnish(芬兰语)、Icelandic(冰岛语)、Norwegian(挪威语)、Swedish(瑞典语)、Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Slovak(斯洛伐克语)、Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语)、Russian(俄语)、Greek(希腊语)、Turkish(土耳其语)
语言组
Western European (ISO)、Central European (ISO)、Baltic (ISO) *3
亚洲语言的字符识别
识别字符类型
日语:字母数字字符、假名字符、汉字字符(JIS first level、JIS second level (部分))、符号
中文(简体):字母数字字符、中文字符、符号(GB2312-80)
中文(繁体):字母数字字符、中文字符、符号(Big5)
韩语:字母数字字符、汉字字符、韩语字符、符号(KSC5601)
识别字体
支持多种字体(推荐Ming-cho类型)
无法识别Italic类型
转换字体
-
选择“Japanese”(日语)时:
亚洲语言文本:MS Mincho
欧洲语言文本:Century
选择“Chinese (Simplified)”(中文(简体))时:
亚洲语言文本:SimSun
欧洲语言文本:Calibri
选择“Chinese (Traditional)”(中文(繁体))时:
亚洲语言文本:PMingLiU
欧洲语言文本:Calibri
欧洲语言的字符识别
识别字符类型
字母数字字符、所识别语言的特殊字符*4、符号
识别字体
支持多种字体(推荐Times、Century和Arial)
可以识别Italic类型
转换字体
-
显示为Calibli
无法转换Italic类型
*1 [参数选择](设置/注册)的[切换语言/键盘]的语言列表中显示的语言可能会有所差异。
*2 如果在[参数选择](设置/注册)的[切换语言/键盘]中选择“English”(英语)、“French”(法语)、“Italian”(意大利语)、“German”(德语)、“Spanish”(西班牙语)、“Thai”(泰语)或“Vietnamese”(越南语),则语言会被识别为“Western European (ISO)”。
*3 每个语言组由以下语言组成。如果选择一个语言组,则会识别以该语言组写成的文本。
Western European (ISO):
English(英语)、French(法语)、Italian(意大利语)、German(德语)、Spanish(西班牙语)、Dutch(荷兰语)、Portuguese(葡萄牙语)、Albanian(阿尔巴尼亚语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Finnish(芬兰语)、Icelandic(冰岛语)、Norwegian(挪威语)、Swedish(瑞典语)
Central European (ISO):
Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Slovak(斯洛伐克语)
Baltic (ISO):
Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语)
*4 如果选择“Greek”(希腊语),可以识别以下特殊字符。如果选择其他语言,可以识别每种语言的特殊字符。根据不同的语言,无法识别某些特殊字符。
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

原稿格式

通过使用正确的OCR文件格式,可以提高OCR结果的正确性。
如果无法获取正确的OCR结果,请确认已扫描原稿的文件格式是否适合用于OCR。
须知
如果使用的原稿每页包含大量文本,OCR可能无法正确执行。
选择Word格式时,即使使用的原稿为推荐的文件格式,OCR也可能无法正确执行。
根据不同的背景颜色、字符样式、字符大小和字符倾斜,某些字符可能会在OCR结果中被错误替换或丢失。
原稿中的段落符号、分隔符和表格可能无法识别。
图像的一部分可能会被识别并替换为文本。
项目
详细说明
原稿格式
打印文档、文本文档(包含文本、插图、图像、表格和无斜体字符的文档)
文本格式
横向书写、纵向书写
可以识别同时包含横向书写和纵向书写的文档。
欧洲语言和韩语仅可以识别横向书写。
无复杂纵列的文档
字符大小
8到40磅
表格格式
(仅用于Word文档)
符合以下条件的表格
使用实线的方形表格
行数为32或更少
列数为32或更少
12U0-0K8