如果OCR(可检索文本)未正确执行

本节介绍创建可检索PDF/XPS/OOXML文件时“OCR(可检索文本)”功能如何工作，以及适用于“OCR(可检索文本)”功能的文件格式。

如果无法获取OCR(光学字符识别)正确的结果，请参考下面的说明。

创建可检索PDF/XPS/OOXML文件的OCR(可检索文本)功能

创建可检索PDF/XPS/OOXML文件时，OCR性能根据选定的文件格式不同而有所差异。有关详细信息，请参见下面的表格。

须知
根据原稿的文本和文件格式，即使根据原稿使用的语言执行OCR，也可能无法获取正确的结果。

识别语言	根据在“设置/注册”的[参数选择]的[语言/键盘切换]中选择的语言，字符会被识别为以下一种语言或语言组1 2
亚洲语言	识别以下语言中的文本： Japanese(日语)、中文(简体)、中文(繁体)、Korean(韩语)
欧洲语言	识别以下语言或语言组中的文本语言 English(英语)、French(法语)、Italian(意大利语)、German(德语)、Spanish(西班牙语)、Dutch(荷兰语)、Portuguese(葡萄牙语)、Albanian(阿尔巴尼亚语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Finnish(芬兰语)、Icelandic(冰岛语)、Norwegian(挪威语)、Swedish(瑞典语)、Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Slovak(斯洛伐克语)、Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语)、Russian(俄语)、Greek(希腊语)、Turkish(土耳其语) 语言组 Western European (ISO)、Central European (ISO)、Baltic (ISO) *3
亚洲语言的字符识别
识别字符类型	日语：字母数字字符、假名字符、汉字字符(JIS first level、JIS second level (部分))、符号中文(简体)：字母数字字符、中文字符、符号(GB2312-80) 中文(繁体)：字母数字字符、中文字符、符号(Big5) 韩语：字母数字字符、汉字字符、韩语字符、符号(KSC5601)
识别字体	支持多种字体(推荐Ming-cho类型) 无法识别Italic类型
欧洲语言的字符识别
识别字符类型	字母数字字符、所识别语言的特殊字符*4、符号
识别字体	支持多种字体(推荐Times、Century和Arial) 可以识别Italic类型

*1“设置/注册”中 [参数选择]的[语言/键盘切换]的语言列表中显示的语言可能会有所差异。

*2 如果在“设置/注册”中[参数选择]的[语言/键盘切换]中选择“English”(英语)、“French”(法语)、“Italian”(意大利语)、“German”(德语)、“Spanish”(西班牙语)、“Thai”(泰语)或“Vietnamese”(越南语)，则语言会被识别为“Western European (ISO)”。

*3 每个语言组由以下语言组成。如果选择一个语言组，则会识别以该语言组写成的文本。

Western European (ISO)：	English(英语)、French(法语)、Italian(意大利语)、German(德语)、Spanish(西班牙语)、Dutch(荷兰语)、Portuguese(葡萄牙语)、Albanian(阿尔巴尼亚语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Finnish(芬兰语)、Icelandic(冰岛语)、Norwegian(挪威语)、Swedish(瑞典语)
Central European (ISO)：	Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Slovak(斯洛伐克语)
Baltic (ISO)：	Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语)

*4 如果选择“Greek”(希腊语)，可以识别以下特殊字符。如果选择其他语言，可以识别每种语言的特殊字符。根据不同的语言，无法识别某些特殊字符。

Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

用于创建可检索PDF/XPS/OOXML文件的文件格式

通过使用正确的OCR文件格式，可以提高OCR结果的正确性。

如果无法获取正确的OCR结果，请确认已扫描原稿的文件格式是否适合用于OCR。

须知
如果使用的原稿每页包含大量文本，OCR可能无法正确执行。

项目	详细说明
原稿格式	打印文档、文本文档(包含文本、插图、图像、表格和无斜体字符的文档)
文本格式	横向书写、纵向书写可以识别同时包含横向书写和纵向书写的文档。欧洲语言和韩语仅可以识别横向书写。无复杂纵列的文档
字符大小	8到40磅