使用 OCR 功能進行掃描

此模式可讓您執行 OCR (光學字元辨識),以擷取掃描影像中能夠辨識為文字的資料,並建立可搜尋的 PDF/XPS/OOXML (pptx/docx) 檔案。如果選擇 PDF 或 XPS 作為檔案格式,您也可以設定 <壓縮>。
有關使用此功能所需的選購產品以及檔案格式的資訊,請參閱系統選購配件

使用 OCR 掃描

1
放置原稿。放置原稿
2
按下 <掃描後傳送>。<首頁> 畫面
3
在掃描基本功能畫面上指定接收者。掃描基本功能畫面
4
根據需求指定掃描設定。掃描原稿的基本操作
5
選擇檔案格式。
如果您想分隔多個影像並以獨立檔案傳送(每個檔案僅包含一頁),請按下 <分割為多頁>  輸入分割的頁數  按下 <確定>。如果您想將影像掃描成單一檔案,請按下 <分割為多頁>  <取消設定>。
選擇 PDF
選擇 XPS
選擇 OOXML 的 Word 格式
選擇 OOXML 的 PowerPoint 格式
6
按 <確定>。
如果選擇 <PDF;OCR>、<XPS;OCR> 或 <OOXML;OCR> 作為檔案格式,並在 <OCR(可搜尋文字)設定>/<OCR(速度優先)> 中將 <智能掃描> 設為 <開啟>,則會偵測原稿方向,並會在傳送前視需要自動旋轉文件。<OCR(可搜尋文字)設定>
如果選擇 <PDF> 或 <XPS> 作為檔案格式,您可同時設定 <壓縮> 和 <OCR(可搜尋文字)>。在此情況下,「掃描並傳送基本功能」畫面上會將 <PDF;壓縮> 或 <XPS;壓縮> 顯示為檔案格式。
如果在 <OOXML> 中選擇 <Word>,您可設為刪除掃描背景影像。您可產生 Word 檔案,以便在沒有不想要影像的情況下進行編輯。<Word檔案中包含背景影像>

不滿意 OCR 結果

當您建立「可搜尋文字的 PDF/XPS/OOXML」檔案時,OCR(光學字元辨識)可能無法正確處理。這可能是因為本機上的設定、或原始文件的語言、字元類型或格式並不適合進行 OCR 處理。

檢查本機設定和支援的語言

您可以根據原稿自訂本機關於字元辨識的設定,或在原稿中使用合適的字元類型或字型以便本機可以辨識字元,從而改善 OCR 處理。

OCR 處理的設定和語言

項目
詳細資訊
字元辨識的語言設定
以在 <檔案格式> 中選擇的 OCR 指定語言時:
字元是根據您在各檔案格式中選擇的語言進行辨識。
沒有以在 <檔案格式> 中選擇的 OCR 指定語言時:
字元是根據您在 <切換語言/鍵盤> (<切換語言/鍵盤>) 中選擇的語言進行辨識。*1
可辨識的亞洲語言
日文、中文(簡體)、中文(繁體)、韓文
可辨識的字元類型和字型(亞洲語言)
可辨識的歐洲語言和語言群組
語言:
英文、法文、義大利文、德文、西班牙文、荷蘭文、葡萄牙文、阿爾巴尼亞文、加泰隆尼亞文、丹麥文、芬蘭文、冰島文、挪威文、瑞典文、克羅地亞文、捷克文、匈牙利文、波蘭文、斯洛伐克文、愛沙尼亞文、拉脫維亞文、立陶宛文、俄文、希臘文、土耳其文
語言群組:
西歐 (ISO)*2、中歐 (ISO)*3、波羅的海 (ISO)*4
可辨識的字元類型和字型(歐洲語言)
*1 清單中顯示的語言可能會有不同。如果您選擇英文、法文、義大利文、德文、西班牙文、泰文或越南文,這些選擇的語言會辨識為西歐語言 (ISO)。
*2 包括英文、法文、義大利文、德文、西班牙文、荷蘭文、葡萄牙文、阿爾巴尼亞文、加泰隆尼亞文、丹麥文、芬蘭文、冰島文、挪威文和瑞典文。
*3 包括克羅地亞文、捷克文、匈牙利文、波蘭文和斯洛伐克文。
*4 包括愛沙尼亞文、拉脫維亞文和立陶宛文。

可辨識的字元類型和字型(亞洲語言)

項目
詳細資訊
可辨識的字元類型
日文:
英數字元、假名字元、漢字字元(JIS 第一級與一些 JIS 第二級)、符號
中文(簡體):
英數字元、中文字元、符號 (GB2312-80)
中文(繁體):
英數字元、中文字元、符號 (Big5)
韓文:
英數字元、中文字元、韓文字元、符號 (KSC5601)
可辨識的字型
支援多種字型。(建議使用明體)。
斜體字元無法辨識。
用於轉換字元的字型(僅當選擇 Word 作為檔案格式時)
日文:
亞洲字元:MS Mincho
歐洲字元:Century
中文(簡體):
亞洲字元:SimSun
歐洲字元:Calibri
中文(繁體):
亞洲字元:PMingLiU
歐洲字元:Calibri

可辨識的字元類型和字型(歐洲語言)

項目
詳細資訊
可辨識的字元類型
英數字元、可辨識語言的特殊字元*、符號
可辨識的字型
支援多種字型。(建議使用 Times、Century 和 Arial。)
斜體字元可辨識。
用於轉換字元的字型(僅當選擇 Word 作為檔案格式時)
Calibri
斜體樣式無法重製。
* 可辨識下列特殊希臘字元。也可辨識每種語言的特殊字元,某些特殊字元視語言而無法辨識。
Α、Β、Γ、Δ、Ε、Ζ、Η、Θ、Ι、Κ、Λ、Μ、Ν、Ξ、Ο、Π、Ρ、Σ、Τ、Υ、Φ、Χ、Ψ、Ω、α、β、γ、δ、ε、ζ、η、θ、ι、κ、λ、μ、ν、ξ、ο、π、ρ、σ、τ、υ、φ、χ、ψ、ω

檢查原稿文件的格式

在建立可搜尋的 PDF/XPS/OOXML 檔案時,使用適合 OCR 處理的原稿可提高處理的準確度。
項目
詳細資訊
原稿格式
列印的文件、文字處理軟體文件(由文字、圖形、照片或表格組成,沒有字元傾斜的文件)
文字格式
水平和垂直方向(也可辨識同時包括水平和垂直方向的文件)
對於歐洲語言和韓文文字僅可辨識水平方向。
沒有複雜欄設定的一到三欄文件
字元尺寸
8 到 40 點
表格格式(僅適用於 Word 格式)
符合下列條件的表格:
表格由實線劃分的方塊組成
表格最多 32 欄
表格最多 32 列
某些適合 OCR 處理的原稿可能未正確處理
在每一頁包含有大量文字的原稿可能無法達到高準確度。
字元可能會因原稿的背景顏色、形式和字元尺寸或傾斜字元,而被非想要的字元取代或缺失。*
段落、分行或表格可能無法重製。*
某些插圖、照片或印痕的一部分可能會被辨識為字元,且使用字元取代。*
* 當選擇 Word 作為檔案格式時。
6ULE-072