Lectura amb la funció OCR

Aquest mode permet realitzar l'OCR (reconeixement òptic de caràcters) per extraure dades que es poden reconèixer com a text de la imatge llegida i crear un fitxer PDF/XPS/OOXML (pptx/docx) que permeti la cerca de text. També podeu establir <Compacte> si seleccioneu PDF o XPS com a format de fitxer.

Lectura amb OCR

1
Col·loqueu l'original. Col·locació dels originals
2
Premeu <Llegir i enviar>. La pantalla <Inici>
3
Especifiqueu la destinació a la pantalla de funcions bàsiques de lectura. Pantalla de funcions bàsiques de lectura
4
Especifiqueu les opcions de lectura que calgui. Funcions bàsiques per llegir originals
5
Seleccioneu un format de fitxer.
Si voleu separar diverses imatges i enviar-les com a fitxers independents, cadascun d'una sola pàgina, premeu <Dividir en pàgines>  introduïu el nombre de pàgines que voleu dividir per  premeu <Bé>. Si voleu llegir les imatges com un únic fitxer, premeu <Dividir en pàgines>  <Cancel·lar opc.>.
Per seleccionar PDF
Per seleccionar XPS
Per seleccionar el format Word per a OOXML
Per seleccionar el format PowerPoint per a OOXML
6
Premeu <Bé>.
Si seleccioneu <PDF; OCR>, <XPS; OCR>, o <OOXML; OCR> com a format de fitxer i l'opció <Lectura intel·ligent> està establerta en <On> a <OCR (Text Searchable) Settings>, es detecta l'orientació de l'original i el document es gira automàticament, si cal, abans d'enviar-se. <Opcions d'OCR (text per a cerques)>
Si seleccioneu <PDF> o <XPS> com a format de fitxer, podeu establir <Compacte> i <OCR (text per a cerques)> alhora. En aquest cas, apareix <PDF; Compacte> o <XPS; Compacte> com a format de fitxer a la pantalla de funcions bàsiques de lectura i enviament.
Si seleccioneu <Word> per a <OOXML>, podeu eliminar les imatges de fons llegides. Podeu generar fitxers de Word que es poden editar fàcilment sense imatges no desitjades. <Incloure imatges de fons al fitxer Word>
Seleccioneu un idioma o un grup d'acord amb l'idioma que heu utilitzat en els documents originals que s'han de llegir. Opcions i idiomes per al processament OCR

Els resultats de l'OCR no són satisfactoris

Quan creeu fitxers PDF/XPS/OOXML en els quals es poden fer cerques de text, pot ser que l'OCR (reconeixement òptic de caràcters) no es processi correctament. El motiu d'això pot ser que les opcions de l'equip, o l'idioma, el tipus de caràcter o el format del document original no siguin apropiats per al processament OCR.

Comprovació de les opcions de l'equip i els idiomes admesos

Podeu millorar el processament OCR personalitzant les opcions de l'equip relacionades amb el reconeixement de caràcter d'acord amb els originals, o utilitzant tipus de caràcters o fonts adequats als originals de manera que l'equip pugui reconèixer els caràcters.

Opcions i idiomes per al processament OCR

Element
Detalls
Opcions d'idioma per al reconeixement de caràcters
Quan especifiqueu un idioma amb OCR establert en <Format de fitxer>:
Els caràcters es reconeixen segons l'idioma que seleccioneu per a cada format de fitxer.
Quan no especifiqueu un idioma amb OCR establert en <Format de fitxer>:
Els caràcters es reconeixen segons l'idioma que seleccioneu a <Canviar idioma/teclat> (<Canviar idioma/teclat>).*1
Idiomes asiàtics recognoscibles
Japonès, xinès (simplificat), xinès (tradicional), coreà
Tipus de caràcters i fonts recognoscibles (idiomes asiàtics)
Idiomes i grups d'idiomes europeus recognoscibles
Idiomes:
anglès, francès, italià, alemany, espanyol, holandès, portuguès, albanès, català, danès, finès, islandès, noruec, suec, croat, txec, hongarès, polonès, eslovac, estonià, letó, lituà, rus, grec, turc
Grups d'idiomes:
Europeu occidental (ISO)*2, Centreeuropeu (ISO)*3, Bàltic (ISO)*4
Tipus de caràcters i fonts recognoscibles (idiomes europeus)
*1 Els idiomes que apareixen a la llista poden variar. Si seleccioneu anglès, francès, italià, alemany, espanyol, tailandès o vietnamita, l'idioma seleccionat es reconeix com a europeu occidental (ISO).
*2 Inclou anglès, francès, italià, alemany, espanyol, holandès, portuguès, albanès, català, danès, finès, islandès, noruec i suec.
*3 Inclou croata, txec, hongarès, polonès i eslovac.
*4 Inclou estonià, letó i lituà.

Tipus de caràcters i fonts recognoscibles (idiomes asiàtics)

Element
Detalls
Tipus de caràcters recognoscibles
Japonès:
caràcters alfanumèrics, caràcters Kana, caràcters Kanji (primer nivell de JIS i parcialment segon nivell de JIS), símbols
Xinès (simplificat):
Caràcters alfanumèrics, Caràcters xinesos, Símbols (GB2312-80)
Xinès (tradicional):
Caràcters alfanumèrics, Caràcters xinesos, Símbols (Big5)
Coreà:
Caràcters alfanumèrics, Caràcters xinesos, Caràcters Hangul, Símbols (KSC5601)
Fonts recognoscibles
Compatibilitat amb diverses fonts. (Es recomana el tipus Ming-cho).
Els caràcters en cursiva no es poden reconèixer.
Fonts utilitzades per als caràcters convertits (només quan se selecciona Word com a format de fitxer)
Japonès:
Caràcters asiàtics: MS Mincho
Caràcters europeus: Century
Xinès (simplificat):
Caràcters asiàtics: SimSun
Caràcters europeus: Calibri
Xinès (tradicional):
Caràcters asiàtics: PMingLiU
Caràcters europeus: Calibri

Tipus de caràcters i fonts recognoscibles (idiomes europeus)

Element
Detalls
Tipus de caràcters recognoscibles
Caràcters alfanumèrics, caràcters especials de l'idioma reconegut*, símbols
Fonts recognoscibles
Compatibilitat amb diverses fonts. (Es recomanen Times, Century i Arial).
Els caràcters en cursiva es poden reconèixer.
Fonts utilitzades per als caràcters convertits (només quan se selecciona Word com a format de fitxer)
Calibri
L'estil de lletra cursiva no es reprodueix.
* Es poden reconèixer els caràcters grecs especials següents. També es poden reconèixer caràcters especials de cada idioma. Alguns caràcters especials no es poden reconèixer, segons els idiomes.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

Comprovació del format dels documents originals

Utilitzeu originals adequats per al processament OCR per millorar la precisió del processament quan creeu fitxers PDF/XPS/OOXML en els quals es puguin realitzar cerques.
Element
Detalls
Format original
Documents impresos, documents de processador de textos (documents que consten de text, gràfics, fotografies o taules, i sense caràcters inclinats)
Format de text
Escriptura horitzontal i vertical (es poden reconèixer documents que continguin tant escriptura horitzontal com vertical)
Per als idiomes europeus i el text coreà, només es reconeix l'escriptura horitzontal.
Documents d'una a tres columnes sense opcions de columna complexes
Mida dels caràcters
Entre 8 i 40 punts
Format de taula (només per al format Word)
Taules que compleixen les condicions següents:
Les taules consten de quadres separats per línies sòlides
Taules de fins a 32 columnes
Taules de fins a 32 files
Pot ser que alguns originals adequats per al processament OCR no es puguin processar correctament.
Pot ser que no s'aconsegueixi una precisió alta amb els originals que incloguin una gran quantitat de text en cada pàgina.
Pot ser que els caràcters se substitueixin per caràcters incorrectes o que s'ometin a causa del color de fons de l'original, la forma i la mida dels caràcters o caràcters inclinats.*
Pot ser que els paràgrafs, els salts de línia o les taules no es reprodueixin.*
Algunes parts d'il·lustracions, fotografies o impressions de segells es poden reconèixer com a caràcters i substituir-se per caràcters.*
* Quan se selecciona Word com a format de fitxer.
A12X-08H