OCRで文字認識して読み込む

OCR(文字認識)は、テキストとして認識可能な部分からテキストデータの抽出を行い、テキスト検索可能なPDF/XPS/OOXMLを作成する機能です。また、<高圧縮>を同時に指定することもできます。

OCRで読み込む

1
原稿をセットする 原稿をセットする
2
<スキャンして送信>を押す <ホーム>画面
3
スキャンの基本画面で宛先を指定する スキャンの基本画面について
4
必要に応じて読み込み設定をする スキャンの基本操作
5
ファイル形式を選択
複数ページの原稿をページごとに分割して、別々のファイルとして送信するときは、<ページごとに分割>を押して分割するページ数を入力 <OK>を押してください。1つのファイルとして読み込むときは<ページごとに分割> <設定取消>を押します。
PDFを選択する
XPSを選択する
OOXMLでWord形式を選択する
OOXMLでPowerPoint形式を選択する
6
<OK>を押す
 原稿サイズが長尺原稿(432mm以上)のとき、<OCR(文字認識)>で送信することはできません。
<OCR(文字認識)設定>の<原稿向き自動検知>が<ON>のとき、ファイル形式で<PDF(OCR)>、<XPS(OCR)>または<OOXML(OCR)>を選択すると、原稿の向きを検知して自動的に回転して送信されます。<OCR (文字認識) 設定>
<OCR(文字認識)>を選択すると、倍率は<等倍 (100%)>または<自動>でのみ送信できます。
<PDF>または<XPS>を選択した場合、<高圧縮>と<OCR(文字認識)>と組み合わせて設定できます。送信画面では<PDF(高圧縮)>または<XPS(高圧縮)>と表示されます。
<OOXML>から<Word>を選択した場合、読み込んだ背景画像を消去できます。不必要な画像が消えるため、Wordファイルの編集がしやすくなります。<Wordファイルに背景画像を含める>
<スキャンして保存>機能を使用しているときは、<OOXML>の<Word>または<PDF>の<OCR (欧米文字認識)>を選択している時のみ、OCRの言語を指定できます。

文字が正しくOCR処理されない

テキスト検索可能なPDF/XPS/OOXMLを作成する際に、正常にOCR(光学式文字認識)処理が行われないことがあります。その原因として、本体の設定や原稿に使用している言語、文字種、原稿の形式などが、OCR処理の適性に合っていない場合があります。

本体の設定や対応言語を確認する

文字認識に関わる本体の設定を原稿に合わせて変更したり、本体が認識できる文字種や書体を原稿に使用したりすることで、正しくOCR処理されるようになります。

OCR処理の基準となる設定や言語について

項目
詳細
文字認識の基準となる言語の設定
<ファイル形式>でOCR選択時に言語指定がある場合:
各ファイル形式で選んだ言語が、文字認識の基準になります。
<ファイル形式>でOCR選択時に言語指定がない場合:
<表示言語/キーボードの切替>の設定(<表示言語/キーボードの切替>)で選んだ言語が、文字認識の基準となります。*1
認識できるアジア言語 *2
日本語、中国語(簡体字)、中国語(繁体字)、韓国語
認識できる文字種と書体について(アジア言語)
認識できる欧文言語および言語グループ
言語:
英語、フランス語、イタリア語、ドイツ語、スペイン語、オランダ語、ポルトガル語、アルバニア語、カタロニア語、デンマーク語、フィンランド語、アイスランド語、ノルウェー語、スウェーデン語、クロアチア語、チェコ語、ハンガリー語、ポーランド語、スロバキア語、エストニア語、ラトビア語、リトアニア語、ロシア語、ギリシャ語、トルコ語、スロベニア語*3、ルーマニア語*3、ブルガリア語*3、ヘブライ語*3
言語グループ:
西ヨーロッパ言語(ISO)*4、中央ヨーロッパ言語(ISO)*5、バルト言語(ISO)*6
認識できる文字種と書体について(欧州言語)
*1 リストに表示される言語は、異なる場合があります。また、英語、フランス語、イタリア語、ドイツ語、スペイン語、タイ語、ベトナム語のいずれかを選択した場合は、欧文言語の西ヨーロッパ言語(ISO)として認識されます。
*2 <OCR (欧米文字認識)>を選択した場合、アジア言語の認識は非対応となります。
*3 <OCR (欧米文字認識)>でのみ選択可能です。
*4 英語、フランス語、イタリア語、ドイツ語、スペイン語、オランダ語、ポルトガル語、アルバニア語、カタロニア語、デンマーク語、フィンランド語、アイスランド語、ノルウェー語、スウェーデン語が含まれます。
*5 クロアチア語、チェコ語、ハンガリー語、ポーランド語、スロバキア語が含まれます。
*6 エストニア語、ラトビア語、リトアニア語が含まれます。

認識できる文字種と書体について(アジア言語)

項目
詳細
認識できる文字種
日本語:
アルファベット、数字、ひらがな、カタカナ、漢字(JIS 第一水準、JIS 第二水準(一部))、記号
中国語(簡体字):
アルファベット、数字、漢字、記号 (GB2312-80)
中国語(繁体字):
アルファベット、数字、漢字、記号 (Big5)
韓国語:
アルファベット、数字、漢字、ハングル、記号 (KSC5601)
認識できる書体
マルチフォント対応(明朝体推奨)
斜体で書かれた文字は認識しない
変換後の書体(ファイル形式にWord を選択した場合のみ)
日本語:
アジア系文字:MS 明朝
欧文文字:Century
中国語(簡体字):
アジア系文字:SimSun
欧文系文字:Calibri
中国語(繁体字):
アジア系文字:PMingLiU
欧文系文字:Calibri

認識できる文字種と書体について(欧州言語)

項目
詳細
認識できる文字種
アルファベット、認識言語の固有文字*1、数字、記号
認識できる書体
マルチフォント対応(Times、Century、Arial推奨)*2
斜体で書かれた文字を認識する
変換後の書体(ファイル形式にWord を選択した場合のみ)
Calibriで表示される
斜体は再現されない
*1 ギリシャ語の場合、次の言語固有文字を認識できます。その他の言語は、各言語の固有文字を認識できます。ただし、言語によっては一部認識できない固有文字があります。
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ,υ, φ, χ, ψ, ω
*2 <OCR (欧米文字認識)>を選択した場合、Arial系、Times New Roman系、Courier New系のフォントを認識します。

原稿の形式を確認する

テキスト検索可能なPDF/XPS/OOXMLを作成するときに、OCR処理に適した原稿を使用することで、処理結果の精度を上げることができます。
項目
詳細
原稿の形式
印刷文書、ワープロ文書(テキストや図、写真、表によって構成され、傾きのないもの)
テキストの形式
横書き、縦書き(横書きと縦書きが混在した文書も認識可能)
欧文と韓国語は横書きのみ認識可能
1~3段組で複雑な入り組みのないもの
文字サイズ
8~40ポイント
表の形式(Wordのみ対応)
次の条件を満たす表
実線の罫線で構成された四角形
列数が32列以下
行数が32行以下
OCR処理に適した原稿でも、正しくOCR処理されない場合があります。
1ページあたりの文字数が多い原稿は、処理結果の精度が上がらないことがあります。
地色や字体、文字の大きさ、文字の傾きなどによっては、意図しない文字に置き換えられたり、文字が欠落したりすることがあります。*
段落や改行、表が再現されないことがあります。*
図や写真、印鑑などの画像の一部が文字として認識され、文字に置き換えられることがあります。*
*ファイル形式でWordを選択した場合
6H97-08W