OCR(文字認識)は、テキストとして認識可能な部分からテキストデータの抽出を行い、テキスト検索可能なPDF/XPS/OOXMLを作成する機能です。また、<高圧縮>を同時に指定することもできます。 |
1 | <PDF>を選択 <詳細設定> <OCR(文字認識)>を押す |
2 | <OCRの言語>からOCRで使用する言語を選択 <OK>を押す |
1 | <XPS>を選択 <詳細設定> <OCR(文字認識)>を押す |
2 | <OCRの言語>からOCRで使用する言語を選択 <OK>を押す |
1 | <OOXML>を選択 ドロップダウンリストから<Word>を選択 |
1 | <OOXML>を選択 ドロップダウンリストから<PowerPoint>を選択 |
2 | <詳細設定> <OCR(文字認識)>を押す |
3 | <OCRの言語>からOCRで使用する言語を選択 <OK>を押す |
<OCR(文字認識)設定>の<原稿向き自動検知>が<ON>のとき、ファイル形式で<PDF(OCR)>、<XPS(OCR)>または<OOXML(OCR)>を選択すると、原稿の向きを検知して自動的に回転して送信されます。<OCR (文字認識) 設定> <PDF>または<XPS>を選択した場合、<高圧縮>と<OCR(文字認識)>と組み合わせて設定できます。送信画面では<PDF(高圧縮)>または<XPS(高圧縮)>と表示されます。 <OOXML>から<Word>を選択した場合、読み込んだ背景画像を消去できます。不必要な画像が消えるため、Wordファイルの編集がしやすくなります。<Wordファイルに背景画像を含める> 読み込む原稿に使用されている言語にあわせて、一言語または一グループを選択します。OCR処理の基準となる設定や言語について |
項目 | 詳細 |
文字認識の基準となる言語の設定 | <ファイル形式>でOCR選択時に言語指定がある場合: 各ファイル形式で選んだ言語が、文字認識の基準になります。 |
認識できるアジア言語 | 日本語、中国語(簡体字)、中国語(繁体字)、韓国語 認識できる文字種と書体について(アジア言語) |
認識できる欧文言語および言語グループ | 言語: 英語、フランス語、イタリア語、ドイツ語、スペイン語、オランダ語、ポルトガル語、アルバニア語、カタロニア語、デンマーク語、フィンランド語、アイスランド語、ノルウェー語、スウェーデン語、クロアチア語、チェコ語、ハンガリー語、ポーランド語、スロバキア語、エストニア語、ラトビア語、リトアニア語、ロシア語、ギリシャ語、トルコ語 |
項目 | 詳細 |
認識できる文字種 | 日本語: アルファベット、数字、ひらがな、カタカナ、漢字(JIS 第一水準、JIS 第二水準(一部))、記号 中国語(簡体字): アルファベット、数字、漢字、記号 (GB2312-80) 中国語(繁体字): アルファベット、数字、漢字、記号 (Big5) 韓国語: アルファベット、数字、漢字、ハングル、記号 (KSC5601) |
認識できる書体 | マルチフォント対応(明朝体推奨) 斜体で書かれた文字は認識しない |
変換後の書体(ファイル形式にWord を選択した場合のみ) | 日本語: アジア系文字:MS 明朝 欧文文字:Century 中国語(簡体字): アジア系文字:SimSun 欧文系文字:Calibri 中国語(繁体字): アジア系文字:PMingLiU 欧文系文字:Calibri |
項目 | 詳細 |
認識できる文字種 | アルファベット、認識言語の固有文字*、数字、記号 |
認識できる書体 | マルチフォント対応(Times、Century、Arial推奨) 斜体で書かれた文字を認識する |
変換後の書体(ファイル形式にWord を選択した場合のみ) | Calibriで表示される 斜体は再現されない |
項目 | 詳細 |
原稿の形式 | 印刷文書、ワープロ文書(テキストや図、写真、表によって構成され、傾きのないもの) |
テキストの形式 | 横書き、縦書き(横書きと縦書きが混在した文書も認識可能) 欧文と韓国語は横書きのみ認識可能 1~3段組で複雑な入り組みのないもの |
文字サイズ | 8~40ポイント |
表の形式(Wordのみ対応) | 次の条件を満たす表 実線の罫線で構成された四角形 列数が32列以下 行数が32行以下 |
OCR処理に適した原稿でも、正しくOCR処理されない場合があります。1ページあたりの文字数が多い原稿は、処理結果の精度が上がらないことがあります。 地色や字体、文字の大きさ、文字の傾きなどによっては、意図しない文字に置き換えられたり、文字が欠落したりすることがあります。* 段落や改行、表が再現されないことがあります。* 図や写真、印鑑などの画像の一部が文字として認識され、文字に置き換えられることがあります。* *ファイル形式でWordを選択した場合 |