若OCR(可搜尋文字)執行不正確

本節介紹創建可搜尋PDF/XPS/OOXML檔案時「OCR(可搜尋文字)」功能如何工作，及適合「OCR(可搜尋文字)」功能的檔案格式。

若不能獲得正確的OCR(光學字元識別)結果，請參照以下說明。

針對創建可搜尋PDF/XPS/OOXML檔案的OCR(可搜尋文字)功能

創建可搜尋PDF/XPS/OOXML檔案時，根據所選的檔案格式，OCR性能會有所不同。有關詳細資訊，請參閱下面的表格。

須知
根據原稿的文字和檔案格式，即使按照原稿所用的語言執行OCR，也可能無法獲得正確的結果。

項目	檔案格式
項目	PDF/XPS/PowerPoint	Word
識別語言	根據在「設定/註冊」的[參數選擇]中的[切換語言/鍵盤]中所選的語言，字元會被識別為下列語言或語言組之一12	按[變更]從下列語言或語言組中選擇原稿所用的語言。根據所選的語言識別字元。
亞洲語言	會識別下列語言中的文字： Japanese(日文)、中文(簡體)、中文(繁體)、Korean(韓文)
歐洲語言	會識別下列語言或語言組中的文字：語言 English(英文)、French(法文)、Italian(義大利文)、German(德文)、Spanish(西班牙文)、Dutch(荷蘭文)、Portuguese(葡萄牙文)、Albanian(阿爾巴尼亞文)、Catalan(卡達隆尼亞文)、Danish(丹麥文)、Finnish(芬蘭文)、Icelandic(冰島文)、Norwegian(挪威文)、Swedish(瑞典文)、Croatian(克羅埃西亞文)、Czech(捷克文)、Hungarian(匈牙利文)、Polish(波蘭文)、Slovak(斯洛伐克文)、Estonian(愛沙尼亞文)、Latvian(拉脫維亞文)、Lithuanian(立陶宛文)、Russian(俄文)、Greek(希臘文)、Turkish(土耳其文) 語言組 Western European (ISO)(西歐語系(ISO))、Central European (ISO)(中歐語系(ISO))、Baltic (ISO)(波羅的海文(ISO))*3
亞洲語言的字元識別
字元識別類型	Japanese(日文)：文數字字元、假名字元、漢字字元(JIS first level、JIS second level(部分))、符號中文(簡體)：文數字字元、中文字元、符號(GB2312-80) 中文(繁體)：文數字字元、中文字元、符號(Big5) Korean(韓文)：文數字字元、漢字字元、韓文字元、符號(KSC5601)
識別字型	支援多字型(建議使用Ming-cho類型) 無法識別Italic類型
轉換字型	-	選擇了「Japanese」(日文)時：亞洲文字：MS Mincho 歐洲文字：Century 選擇了「中文(簡體)」時：亞洲文字：SimSun 歐洲文字：Calibri 選擇了「中文(繁體)」時：亞洲文字：PMingLiU 歐洲文字：Calibri
歐洲語言的字元識別
字元識別類型	文數字字元、識別語言的特殊字元*4、符號
識別字型	支援多字型(建議使用Times、Century和Arial) 能夠識別Italic類型
轉換字型	-	顯示為Calibli 無法轉換Italic類型

*1 「設定/註冊」的[參數選擇]中的[切換語言/鍵盤]的語言清單中顯示的語言可能會有所差異。

*2 若在「設定/註冊」的[參數選擇]中的[切換語言/鍵盤]中選擇了「English」(英文)、「French」(法文)、「Italian」(義大利文)、「German」(德文)、「Spanish」(西班牙文)、「Thai」(泰文) 或「Vietnamese」(越南文)，語言會被識別為「Western European (ISO)」(西歐語系(ISO))。

*3 每一個語言組都包含下列語言。若選擇了語言組，會識別用語言組的語言書寫的文字。

Western European(ISO)(西歐語系(ISO))：	English(英文)、French(法文)、Italian(義大利文)、German(德文)、Spanish(西班牙文)、Dutch(荷蘭文)、Portuguese(葡萄牙文)、Albanian(阿爾巴尼亞文)、Catalan(卡達隆尼亞文)、Danish(丹麥文)、Finnish(芬蘭文)、 Icelandic(冰島文)、Norwegian(挪威文)、Swedish(瑞典文)
Central European(ISO)(中歐語系(ISO))：	Croatian(克羅埃西亞文)、Czech(捷克文)、Hungarian(匈牙利文)、 Polish(波蘭文)、Slovak(斯洛伐克文)
Baltic (ISO)(波羅的海文(ISO))：	Estonian(愛沙尼亞文)、Latvian(拉脫維亞文)、Lithuanian(立陶宛文)

*4 若選擇了「Greek」(希臘文)，能夠識別以下特殊字元。若選擇了其他語言，每個語言的特殊字元都能夠識別。根據語言，某些特殊字元不能被識別。

Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

創建可搜尋PDF/XPS/OOXML的檔案格式

透過使用正確的OCR檔案格式，可以提高OCR結果的準確度。

若不能獲得正確的OCR結果，請確認已掃描原稿的檔案格式適合於OCR。

須知
若使用單頁包含大量文字的原稿，OCR可能無法正確執行。若選擇Word格式，即使使用建議檔案格式的原稿，OCR也可能無法正確執行。根據背景顏色、字元樣式、字元尺寸和字元傾斜狀況，某些字元可能會在OCR結果中被錯誤更換或缺失。可能無法識別原稿中的段落、換行和表格。可能會識別影像的一部分(如圖形、相片或密封條壓印)並更換為文字。

須知

若使用單頁包含大量文字的原稿，OCR可能無法正確執行。

若選擇Word格式，即使使用建議檔案格式的原稿，OCR也可能無法正確執行。

根據背景顏色、字元樣式、字元尺寸和字元傾斜狀況，某些字元可能會在OCR結果中被錯誤更換或缺失。

可能無法識別原稿中的段落、換行和表格。

可能會識別影像的一部分(如圖形、相片或密封條壓印)並更換為文字。

項目	詳細資訊
原稿格式	已列印文件、文字文件(包含文字、圖文框、影像、表格和無傾斜字元的文件)
文字格式	橫向書寫、縱向書寫能夠識別包含橫向和縱向書寫的文件。僅能夠識別橫向書寫的歐洲語言和韓文。不包含複雜的字元行的文件
字元尺寸	8到40點
表格格式 (僅適用於Word文件)	滿足以下條件的表格方形實線表格行數為32或更少欄數為32或更少