正しくOCR(文字認識)処理されないときには

サーチャブルPDF/XPS/OOXML を作成する場合のOCR(文字認識)処理による文字認識のしくみと、OCR 処理に適した原稿の形式について説明します。
正しいOCR 処理結果を得られないときに参照してください。

サーチャブルPDF/XPS/OOXML 作成時のOCR(文字認識)について

サーチャブルPDF/XPS/OOXML を作成する場合、選択するファイル形式によって文字認識のしくみが異なります。
詳しくは、以下の表を参照してください。
重要
原稿に使用されている言語にあわせてOCR 処理をしても、使用されている文字や原稿の形式によっては、正しく処理されない場合があります。
項目
ファイル形式:
PDF/XPS/PowerPoint を選択した場合
ファイル形式:
Word を選択した場合
認識言語
[環境設定](設定/登録)の[表示言語/キーボードの切替]で選択した言語に応じて、以下の言語または言語グループの一つとして文字認識される*1*2
[変更]を押して、原稿に使用されている言語を以下の言語または言語グループから一つ選択する。選択した言語または言語グループにあわせて文字認識される
アジア言語
以下の言語で書かれたテキストを文字認識する
日本語、中国語(簡体字)、中国語(繁体字)、韓国語
欧文言語
以下の言語または言語グループで書かれたテキストを文字認識する
言語
英語、フランス語、イタリア語、ドイツ語、スペイン語、オランダ語、ポルトガル語、アルバニア語、カタロニア語、デンマーク語、フィンランド語、アイスランド語、ノルウェー語、スウェーデン語、クロアチア語、チェコ語、ハンガリー語、ポーランド語、スロバキア語、エストニア語、ラトビア語、リトアニア語、ロシア語、ギリシャ語、トルコ語
言語グループ
西ヨーロッパ言語(ISO)、中央ヨーロッパ言語(ISO)、バルト言語(ISO)*3
アジア言語の文字認識
認識文字種
日本語:アルファベット、数字、ひらがな、カタカナ、漢字(JIS 第一水準、JIS 第二水準(一部))、記号
中国語(簡体字):アルファベット、数字、漢字、記号 (GB2312-80)
中国語(繁体字):アルファベット、数字、漢字、記号 (Big5)
韓国語:アルファベット、数字、漢字、ハングル、記号 (KSC5601)
認識書体
マルチフォント対応(明朝体推奨)
斜体で書かれた文字は認識しない
変換後の書体
-
日本語選択時:
アジア系文字:MS 明朝
欧文文字:Century
中国語(簡体字)選択時:
アジア系文字:SimSun
欧文系文字:Calibri
中国語(繁体字)選択時:
アジア系文字:PMingLiU
欧文系文字:Calibri
欧州言語の文字認識
認識文字種
アルファベット、認識言語の固有文字*4、数字、記号
認識書体
マルチフォント対応(Times、Century、Arial 推奨)
斜体で書かれた文字を認識する
変換後の書体
-
Calibri で表示される
斜体は再現されない
*1 [環境設定](設定/登録)の[表示言語/キーボードの切替]の言語のリストに表示される言語は、異なる場合があります。
*2 [環境設定](設定/登録)の[表示言語/キーボードの切替]で英語、フランス語、イタリア語、ドイツ語、スペイン語、タイ語、ベトナム語のいずれかを選択した場合は、欧文言語の西ヨーロッパ言語(ISO)として認識されます。
*3 各言語グループの構成言語と文字は以下のとおりです。言語グループを選択すると、そのグループに含まれる言語で書かれたテキストを文字認識します。
西ヨーロッパ言語(ISO) :
英語、フランス語、イタリア語、ドイツ語、スペイン語、オランダ語、ポルトガル語、アルバニア語、カタロニア語、デンマーク語、フィンランド語、アイスランド語、ノルウェー語、スウェーデン語
中央ヨーロッパ言語(ISO) :
クロアチア語、チェコ語、ハンガリー語、ポーランド語、スロバキア語
バルト言語(ISO) :
エストニア語、ラトビア語、リトアニア語
*4 ギリシャ語の場合、以下の言語固有文字を文字認識できます。その他の言語は、各言語の固有文字を文字認識できます。また、言語によっては一部認識できない固有文字があります。
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ,υ, φ, χ, ψ, ω

サーチャブルPDF/XPS/OOXML 作成時の原稿の形式について

OCR 処理に適した原稿を使用することで、処理結果の精度を向上させることができます。
うまくOCR 処理できない場合は、読み取る原稿がOCR 処理に適した原稿の形式にあてはまるかどうかを確認してください。
重要
1ページあたりの文字数が多い原稿を使用した場合は、正しくOCR 処理されないことがあります。
ファイル形式でWord を選択した場合は、推奨する原稿の形式にあてはまる原稿を使用しても、正しくOCR 処理されない場合があります。
地色や字体、文字の大きさ、文字の傾きなどによっては正しくOCR 処理されず、意図しない文字に置き換えられて表示されたり、文字が欠落したりすることがあります。
段落や改行、表が再現されないことがあります。
図や写真、印鑑などの画像の一部が文字として認識され、文字に置き換えられて表示されることがあります。
項目
詳細
原稿の形式
印刷文書、ワープロ文書
(テキストや図、写真、表によって構成され、傾きのないもの)
テキストの形式
横書き、縦書き
横書きと縦書きが混在した文書も認識可能
欧文、韓国語は横書きのみ認識可能
1~3段組で複雑な入り組みのないもの
文字サイズ
8~40ポイント
表の形式
(Word のみ対応)
以下の条件を満たす表
実線の罫線で構成された四角形
列数が32列以下
行数が32行以下
12L1-0UW