如果OCR(可检索文本)未正确执行

本节介绍创建可检索PDF/XPS/OOXML文件时“OCR(可检索文本)”功能如何工作，以及适用于“OCR(可检索文本)”功能的文件格式。

如果无法获取OCR(可检索文本)正确的结果，请参考下面的说明。

OCR(可检索文本)

可以使用OCR处理的字符如下表所列。如果OCR处理无法正常工作，请检查字符类型。

须知
根据原稿的文本和文件格式，即使根据原稿使用的语言执行OCR，也可能无法获取正确的结果。

项目	文件格式
项目	PDF/XPS/PowerPoint	Word
识别语言	根据在“设置/注册”的[参数选择]的[切换语言/键盘]中选择的语言，字符会被识别为以下一种语言或语言组1 2	按[更改]从以下语言或语言组中选择原稿使用的语言。根据所选语言进行字符识别。
亚洲语言	识别以下语言中的文本： Japanese(日语)、中文(简体)、中文(繁体)、Korean(韩语)
欧洲语言	识别以下语言或语言组中的文本语言 English(英语)、French(法语)、Italian(意大利语)、German(德语)、Spanish(西班牙语)、Dutch(荷兰语)、Portuguese(葡萄牙语)、Albanian(阿尔巴尼亚语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Finnish(芬兰语)、Icelandic(冰岛语)、Norwegian(挪威语)、Swedish(瑞典语)、Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Slovak(斯洛伐克语)、Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语)、Russian(俄语)、Greek(希腊语)、Turkish(土耳其语) 语言组 Western European (ISO)、Central European (ISO)、Baltic (ISO) *3
亚洲语言的字符识别
识别字符类型	日语：字母数字字符、假名字符、汉字字符(JIS first level、JIS second level (部分))、符号中文(简体)：字母数字字符、中文字符、符号(GB2312-80) 中文(繁体)：字母数字字符、中文字符、符号(Big5) 韩语：字母数字字符、汉字字符、韩语字符、符号(KSC5601)
识别字体	支持多种字体(推荐Ming-cho类型) 无法识别Italic类型
转换字体	-	选择“Japanese”(日语)时：亚洲语言文本：MS Mincho 欧洲语言文本：Century 选择“Chinese (Simplified)”(中文(简体))时：亚洲语言文本：SimSun 欧洲语言文本：Calibri 选择“Chinese (Traditional)”(中文(繁体))时：亚洲语言文本：PMingLiU 欧洲语言文本：Calibri
欧洲语言的字符识别
识别字符类型	字母数字字符、所识别语言的特殊字符*4、符号
识别字体	支持多种字体(推荐Times、Century和Arial) 可以识别Italic类型
转换字体	-	显示为Calibli 无法转换Italic类型

*1 [参数选择](设置/注册)的[切换语言/键盘]的语言列表中显示的语言可能会有所差异。

*2 如果在[参数选择](设置/注册)的[切换语言/键盘]中选择“English”(英语)、“French”(法语)、“Italian”(意大利语)、“German”(德语)、“Spanish”(西班牙语)、“Thai”(泰语)或“Vietnamese”(越南语)，则语言会被识别为“Western European (ISO)”。

*3 每个语言组由以下语言组成。如果选择一个语言组，则会识别以该语言组写成的文本。

Western European (ISO)：	English(英语)、French(法语)、Italian(意大利语)、German(德语)、Spanish(西班牙语)、Dutch(荷兰语)、Portuguese(葡萄牙语)、Albanian(阿尔巴尼亚语)、Catalan(加泰罗尼亚语)、Danish(丹麦语)、Finnish(芬兰语)、Icelandic(冰岛语)、Norwegian(挪威语)、Swedish(瑞典语)
Central European (ISO)：	Croatian(克罗地亚语)、Czech(捷克语)、Hungarian(匈牙利语)、Polish(波兰语)、Slovak(斯洛伐克语)
Baltic (ISO)：	Estonian(爱沙尼亚语)、Latvian(拉脱维亚语)、Lithuanian(立陶宛语)

*4 如果选择“Greek”(希腊语)，可以识别以下特殊字符。如果选择其他语言，可以识别每种语言的特殊字符。根据不同的语言，无法识别某些特殊字符。

Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

原稿格式

通过使用正确的OCR文件格式，可以提高OCR结果的正确性。

如果无法获取正确的OCR结果，请确认已扫描原稿的文件格式是否适合用于OCR。

须知
如果使用的原稿每页包含大量文本，OCR可能无法正确执行。选择Word格式时，即使使用的原稿为推荐的文件格式，OCR也可能无法正确执行。根据不同的背景颜色、字符样式、字符大小和字符倾斜，某些字符可能会在OCR结果中被错误替换或丢失。原稿中的段落符号、分隔符和表格可能无法识别。图像的一部分可能会被识别并替换为文本。

须知

如果使用的原稿每页包含大量文本，OCR可能无法正确执行。

选择Word格式时，即使使用的原稿为推荐的文件格式，OCR也可能无法正确执行。

根据不同的背景颜色、字符样式、字符大小和字符倾斜，某些字符可能会在OCR结果中被错误替换或丢失。

原稿中的段落符号、分隔符和表格可能无法识别。

图像的一部分可能会被识别并替换为文本。

项目	详细说明
原稿格式	打印文档、文本文档(包含文本、插图、图像、表格和无斜体字符的文档)
文本格式	横向书写、纵向书写可以识别同时包含横向书写和纵向书写的文档。欧洲语言和韩语仅可以识别横向书写。无复杂纵列的文档
字符大小	8到40磅
表格格式 (仅用于Word文档)	符合以下条件的表格使用实线的方形表格行数为32或更少列数为32或更少