如果OCR(可检索文本)未正确执行

本节介绍创建可检索PDF/XPS/OOXML文件时“OCR(可检索文本)”功能如何工作,以及适用于“OCR(可检索文本)”功能的文件格式。
如果无法获取OCR(光学字符识别)正确的结果,请参考下面的说明。

创建可检索PDF/XPS/OOXML文件的OCR(可检索文本)功能

创建可检索PDF/XPS/OOXML文件时,OCR性能根据选定的文件格式不同而有所差异。有关详细信息,请参见下面的表格。
须知
根据原稿的文本和文件格式,即使根据原稿使用的语言执行OCR,也可能无法获取正确的结果。
识别语言
根据在“设置/注册”的[参数选择]的[语言/键盘切换]中选择的语言,字符会被识别为以下一种语言或语言组*1 *2
亚洲语言
识别以下语言中的文本:
Japanese(日语)、中文(简体)、中文(繁体)、Korean(韩语)
欧洲语言
识别以下语言或语言组中的文本
语言
English(英语)、French(法语)、Italian(意大利语)、German(德语)、Spanish(西班牙语)、Dutch(荷兰语)、Portuguese(葡萄牙语)、Albanian(阿尔巴尼亚语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Finnish(芬兰语)、Icelandic(冰岛语)、Norwegian(挪威语)、Swedish(瑞典语)、Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Slovak(斯洛伐克语)、Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语)、Russian(俄语)、Greek(希腊语)、Turkish(土耳其语)
语言组
Western European (ISO)、Central European (ISO)、Baltic (ISO) *3
亚洲语言的字符识别
识别字符类型
日语:字母数字字符、假名字符、汉字字符(JIS first level、JIS second level (部分))、符号
中文(简体):字母数字字符、中文字符、符号(GB2312-80)
中文(繁体):字母数字字符、中文字符、符号(Big5)
韩语:字母数字字符、汉字字符、韩语字符、符号(KSC5601)
识别字体
支持多种字体(推荐Ming-cho类型)
无法识别Italic类型
欧洲语言的字符识别
识别字符类型
字母数字字符、所识别语言的特殊字符*4、符号
识别字体
支持多种字体(推荐Times、Century和Arial)
可以识别Italic类型
*1“设置/注册”中 [参数选择]的[语言/键盘切换]的语言列表中显示的语言可能会有所差异。
*2 如果在“设置/注册”中[参数选择]的[语言/键盘切换]中选择“English”(英语)、“French”(法语)、“Italian”(意大利语)、“German”(德语)、“Spanish”(西班牙语)、“Thai”(泰语)或“Vietnamese”(越南语),则语言会被识别为“Western European (ISO)”。
*3 每个语言组由以下语言组成。如果选择一个语言组,则会识别以该语言组写成的文本。
Western European (ISO):
English(英语)、French(法语)、Italian(意大利语)、German(德语)、Spanish(西班牙语)、Dutch(荷兰语)、Portuguese(葡萄牙语)、Albanian(阿尔巴尼亚语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Finnish(芬兰语)、Icelandic(冰岛语)、Norwegian(挪威语)、Swedish(瑞典语)
Central European (ISO):
Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Slovak(斯洛伐克语)
Baltic (ISO):
Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语)
*4 如果选择“Greek”(希腊语),可以识别以下特殊字符。如果选择其他语言,可以识别每种语言的特殊字符。根据不同的语言,无法识别某些特殊字符。
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

用于创建可检索PDF/XPS/OOXML文件的文件格式

通过使用正确的OCR文件格式,可以提高OCR结果的正确性。
如果无法获取正确的OCR结果,请确认已扫描原稿的文件格式是否适合用于OCR。
须知
如果使用的原稿每页包含大量文本,OCR可能无法正确执行。
项目
详细说明
原稿格式
打印文档、文本文档(包含文本、插图、图像、表格和无斜体字符的文档)
文本格式
横向书写、纵向书写
可以识别同时包含横向书写和纵向书写的文档。
欧洲语言和韩语仅可以识别横向书写。
无复杂纵列的文档
字符大小
8到40磅
0HEC-0JA