正しくOCR(文字認識)処理されないときには

サーチャブルPDF/XPS/OOXML を作成する場合のOCR(文字認識)処理による文字認識のしくみと、OCR 処理に適した原稿の形式について説明します。
正しいOCR 処理結果を得られないときに参照してください。

サーチャブルPDF/XPS/OOXML 作成時のOCR(文字認識)について

サーチャブルPDF/XPS/OOXML を作成する場合、選択するファイル形式によって文字認識のしくみが異なります。
詳しくは、以下の表を参照してください。
重要
原稿に使用されている言語にあわせてOCR 処理をしても、使用されている文字や原稿の形式によっては、正しく処理されない場合があります。
認識言語
[環境設定](設定/登録)の[表示言語/キーボードの切替]で選択した言語に応じて、以下の言語または言語グループの一つとして文字認識される*1*2
アジア言語
以下の言語で書かれたテキストを文字認識する
日本語、中国語(簡体字)、中国語(繁体字)、韓国語
欧文言語
以下の言語または言語グループで書かれたテキストを文字認識する
言語
英語、フランス語、イタリア語、ドイツ語、スペイン語、オランダ語、ポルトガル語、アルバニア語、カタロニア語、デンマーク語、フィンランド語、アイスランド語、ノルウェー語、スウェーデン語、クロアチア語、チェコ語、ハンガリー語、ポーランド語、スロバキア語、エストニア語、ラトビア語、リトアニア語、ロシア語、ギリシャ語、トルコ語
言語グループ
西ヨーロッパ言語(ISO)、中央ヨーロッパ言語(ISO)、バルト言語(ISO)*3
アジア言語の文字認識
認識文字種
日本語:アルファベット、数字、ひらがな、カタカナ、漢字(JIS 第一水準、JIS 第二水準(一部))、記号
中国語(簡体字):アルファベット、数字、漢字、記号 (GB2312-80)
中国語(繁体字):アルファベット、数字、漢字、記号 (Big5)
韓国語:アルファベット、数字、漢字、ハングル、記号 (KSC5601)
認識書体
マルチフォント対応(明朝体推奨)
斜体で書かれた文字は認識しない
欧州言語の文字認識
認識文字種
アルファベット、認識言語の固有文字*4、数字、記号
認識書体
マルチフォント対応(Times、Century、Arial 推奨)
斜体で書かれた文字を認識する
*1 [環境設定](設定/登録)の[表示言語/キーボードの切替]の言語のリストに表示される言語は、異なる場合があります。
*2 [環境設定](設定/登録)の[表示言語/キーボードの切替]で英語、フランス語、イタリア語、ドイツ語、スペイン語、タイ語、ベトナム語のいずれかを選択した場合は、欧文言語の西ヨーロッパ言語(ISO)として認識されます。
*3 各言語グループの構成言語と文字は以下のとおりです。言語グループを選択すると、そのグループに含まれる言語で書かれたテキストを文字認識します。
西ヨーロッパ言語(ISO) :
英語、フランス語、イタリア語、ドイツ語、スペイン語、オランダ語、ポルトガル語、アルバニア語、カタロニア語、デンマーク語、フィンランド語、アイスランド語、ノルウェー語、スウェーデン語
中央ヨーロッパ言語(ISO) :
クロアチア語、チェコ語、ハンガリー語、ポーランド語、スロバキア語
バルト言語(ISO) :
エストニア語、ラトビア語、リトアニア語
*4 ギリシャ語の場合、以下の言語固有文字を文字認識できます。その他の言語は、各言語の固有文字を文字認識できます。また、言語によっては一部認識できない固有文字があります。
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ,υ, φ, χ, ψ, ω

サーチャブルPDF/XPS/OOXML 作成時の原稿の形式について

OCR 処理に適した原稿を使用することで、処理結果の精度を向上させることができます。
うまくOCR 処理できない場合は、読み取る原稿がOCR 処理に適した原稿の形式にあてはまるかどうかを確認してください。
重要
1ページあたりの文字数が多い原稿を使用した場合は、正しくOCR 処理されないことがあります。
項目
詳細
原稿の形式
印刷文書、ワープロ文書
(テキストや図、写真、表によって構成され、傾きのないもの)
テキストの形式
横書き、縦書き
横書きと縦書きが混在した文書も認識可能
欧文、韓国語は横書きのみ認識可能
1~3段組で複雑な入り組みのないもの
文字サイズ
8~40ポイント
0E5C-0JW