若OCR(可搜尋文字)執行不充分

本節介紹創建可搜尋PDF/XPS/OOXML檔案時OCR(可搜尋文字)功能如何工作,及針對OCR(可搜尋文字)功能適合的檔案格式。
若無法獲得正確的OCR(可搜尋文字)結果,請參照以下說明。

OCR(可搜尋文字)

可以使用OCR處理的字元如下表所列。若OCR處理無法正常工作,請檢查字元類型。
須知
根據原稿的文字和檔案格式,即使按照原稿所用的語言執行OCR,也可能無法獲得正確的結果。
項目
OCR性能
識別語言
根據在「設定/註冊」的[參數選擇]中的[語言/鍵盤切換]中所選的語言,字元會被識別為下列語言或語言組之一*1*2
亞洲語言
識別下列語言中的文字:Japanese(日文)、中文(簡體)、中文(繁體)、Korean(韓文)
歐洲語言
識別下列語言或語言組中的文字:
語言
English(英文)、French(法文)、Italian(義大利文)、German(德文)、Spanish(西班牙文)、Dutch(荷蘭文)、Portuguese(葡萄牙文)、Albanian(阿爾巴尼亞文)、Catalan(卡達隆尼亞文)、Danish(丹麥文)、Finnish(芬蘭文)、Icelandic(冰島文)、Norwegian(挪威文)、Swedish(瑞典文)、Croatian(克羅埃西亞文)、Czech(捷克文)、Hungarian(匈牙利文)、Polish(波蘭文)、Slovak(斯洛伐克文)、Estonian(愛沙尼亞文)、Latvian(拉脫維亞文)、Lithuanian(立陶宛文)、Russian(俄文)、Greek(希臘文)、Turkish(土耳其文)
語言組
Western European (ISO)(西歐語系(ISO))、Central European (ISO)(中歐語系(ISO))、Baltic (ISO)(波羅的海文(ISO))*3
亞洲語言的字元識別
字元識別類型
Japanese(日文):文數字字元、Kana字元、漢字字元(JIS first level、JIS second level(部分))、符號
中文(簡體):文數字字元、中文字元、符號(GB2312-80)
中文(繁體):文數字字元、中文字元、符號(Big5)
Korean(韓文):文數字字元、漢字字元、韓文字元、符號(KSC5601)
識別字型
支援多字型(建議使用Ming-cho類型)
無法識別Italic類型
歐洲語言的字元識別
字元識別類型
文數字字元、 識別語言的特殊字元*4、符號
識別字型
支援多字型(建議使用Times、Century和Arial)
能夠識別Italic類型
*1 「設定/註冊」的[參數選擇]中的[語言/鍵盤切換]的語言清單中顯示的語言可能會有所差異。
*2 若在「設定/註冊」的[參數選擇]中的[語言/鍵盤切換]中選擇了英文、法文、義大利文、德文、西班牙文、泰文或越南文,語言會被識別為「西歐語系(ISO)」。
*3 每一個語言組都包含下列語言。若選擇了語言組,會識別用語言組的語言書寫的文字。
西歐語系(ISO):
英文、法文、義大利文、德文、西班牙文、荷蘭文、葡萄牙文、阿爾巴尼亞文、卡達隆尼亞文、丹麥文、芬蘭文、冰島文、挪威文、瑞典文
中歐語系(ISO):
克羅埃西亞文、捷克文、匈牙利文、波蘭文、斯洛伐克文
波羅的海文(ISO):
愛沙尼亞文、拉脫維亞文、立陶宛文
*4 若選擇了希臘文,能夠識別以下特殊字元。若選擇了其他語言,每個語言的特殊字元都能夠識別。根據語言,某些特殊字元不能被識別。
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

原稿格式

透過使用正確的OCR檔案格式,可以提高OCR結果的準確度。
若不能獲得正確的OCR結果,請確認已掃描原稿的檔案格式適合於OCR。
須知
若使用單頁包含大量文字的原稿,OCR可能無法正確執行。
項目
詳細資訊
原稿格式
已列印文件、文字文件(包含文字、圖文框、影像、表格和無字元傾斜的文件)
文字格式
橫向書寫、縱向書寫
能夠識別包含橫向和縱向書寫的文件。
僅能夠識別橫向書寫的歐洲語言和韓文。
不包含複雜的字元行的文件
字元尺寸
8到40點
0L5E-0FX