Le texte n'est par correctement traité par l'OCR

Il peut arriver que le texte ne soit pas correctement traité par l'OCR lors de la création d'un fichier interrogeable. Si tel est le cas, vérifiez si la langue sélectionnée pour le traitement d'OCR et l'original utilisé sont appropriés.
Vous pouvez changer la langue sélectionnée en fonction de l'original, et vous pouvez améliorer l'exactitude du traitement en utilisant un original avec un type de caractère et une police de caractères reconnaissables par la machine et en utilisant un original approprié pour le traitement d'OCR.
IMPORTANT
Lorsque le traitement d'OCR n'est pas correctement exécuté même avec un original et une langue sélectionnée appropriés
L'exactitude du traitement n'est pas toujours améliorable pour les originaux contenant un gros volume de texte par page.
Notez les points suivants pour la création d'un fichier OOXML au format Word:
Le texte peut être remplacé par des caractères imprévus ou des caractères peuvent manquer selon le fond, la couleur, la police de caractères, la présence d'italiques et d'autres facteurs.
Les paragraphes, les sauts de ligne ou les tableaux ne sont pas reproduits.
Certaines images, telles que les diagrammes, les photos et les sceaux, peuvent être reconnues comme étant du texte et remplacés par du texte.

Réglages et langues standard pour le traitement d'OCR

Langues standard pour la reconnaissance de caractères
Les langues sélectionnées lors de la configuration du traitement d'OCR constituent la base de la reconnaissance de caractères. Créer un fichier interrogeable (traitement d'OCR)
Langues asiatiques reconnaissables
Japonais, chinois (simplifié), chinois (traditionnel), coréen
Pour les types de caractères et les polices de caractères, voir :
Langues européennes et groupes de langues reconnaissables
Langues
Anglais, français, italien, allemand, espagnol, néerlandais, portugais, albanais, catalan, danois, finnois, islandais, norvégien, suédois, croate, tchèque, hongrois, polonais, slovaque, estonien, letton, lituanien, russe, grec, turc, slovène*1, roumain*1, bulgare*1, hébreu*1
Groupes de langues
Europe occidentale (ISO)*2, Europe centrale (ISO)*3, balte (ISO)*4
Pour les types de caractères et les polices de caractères, voir :
*1Langues ne pouvant être sélectionnées qu'avec l'option [OCR (Langues européennes)].
*2Langues incluses : anglais, français, italien, allemand, espagnol, néerlandais, portugais, albanais, catalan, danois, finnois, islandais, norvégien et suédois.
*3Langues incluses : anglais, croate, tchèque, hongrois, polonais et slovaque.
*4Langues incluses : anglais, estonien, letton et lituanien.

Polices et types de caractères reconnaissables (langues asiatiques)

Types de caractères reconnaissables
Japonais
Alphabet, chiffres, kanji*1, symboles, hiragana, et katakana
Chinois (simplifié)
GB2312-80 (alphabet, chiffres, kanji et symboles)
Chinois (traditionnel)
Big5 (alphabet, chiffres, kanji et symboles)
Coréen
KSC5601 (alphabet, chiffres, kanji, symboles et Hangul)
Polices de caractères reconnaissables
Prise en charge de plusieurs polices (recommandée : Mincho)
* Les caractères en italique ne sont pas reconnus.
Tailles de polices de caractères reconnaissables
8 à 48 pt
Polices de caractères utilisées après le traitement d'OCR*2
Japonais
Caractères asiatiques : MS Mincho
Caractères européens : Century
Chinois (simplifié)
Caractères asiatiques : SimSun
Caractères européens : Calibri
Chinois (traditionnel)
Caractères asiatiques : PMingLiU
Caractères européens : Calibri
Coréen
Caractères asiatiques : Malgun Gothic
Caractères européens : Calibri
*1Tous les kanji standard JIS 1 et certains kanji standard JIS 2
*2Uniquement pour la création d'un fichier OOXML au format Word

Polices et types de caractères reconnaissables (langues européennes)

Types de caractères reconnaissables
Alphabet, caractères propres à la langue reconnaissable*1, chiffres, symboles
Polices de caractères reconnaissables
Prise en charge de plusieurs polices (recommandées : Times, Century, Arial)*2
* Les caractères en italique sont reconnus.
Tailles de polices de caractères reconnaissables
6 à 72 pt
Polices de caractères utilisées après le traitement d'OCR*3
Calibri
* Les italiques ne sont pas reproduits.
*1Selon la langue, certains caractères propres à la langue peuvent ne pas être reconnus.
*2Les polices de caractères Arial, Times New Roman et Courier New sont reconnues avec l'option [OCR (Langues européennes)].
*3Uniquement pour la création d'un fichier OOXML au format Word

Originaux adaptés au traitement d'OCR

Vous pouvez améliorer l'exactitude du traitement d'OCR en utilisant un original adapté au traitement d'OCR.
Format de fichier d'original
Documents imprimés et documents de traitement de texte
Originaux constitués de textes, de diagrammes, de photos et/ou de tableau et qui ne sont pas de travers
Format du texte
Écriture horizontale ou verticale (les documents comportant du texte à l'horizontale et à la verticale sont également reconnus)*1
Document comportant une à trois colonnes et sans complexités
Taille de la police de caractères
8 à 40 pt
Format des tableaux*2
Tableaux remplissant les critères suivants :
Format rectangulaire avec un encadrement plein
32 colonnes maximum
32 lignes maximum
*1 Pour les langues européennes et le coréen, seule l'écriture horizontale est reconnue.
*2Uniquement pour la création d'un fichier OOXML au format Word
AK47-086