Escanear con la función OCR

Este modo permite realizar un OCR (reconocimiento óptico de caracteres) para extraer datos que puedan reconocerse como texto a partir de una imagen leída y crear así un archivo PDF/OOXML (pptx/docx) que permita realizar búsquedas. También puede establecer <Compacto> si selecciona PDF como formato de archivo.
Para información acerca de los productos opcionales necesarios para utilizar esta función y los formatos de archivo, consulte Opciones del sistema

Escanear con OCR

1
Coloque el original. Colocación de documentos
2
Pulse <Leer y enviar>. Pantalla <Inicio>
3
Especifique el destino en la pantalla Funciones básicas de lectura. Pantalla Funciones básicas de escáner
4
Especifique las opciones de escaneado según sus necesidades. Operaciones básicas para escanear documentos
5
Seleccione un formato de archivo.
Si desea separar varias imágenes y enviarlas como archivos independientes, cada uno de ellos compuesto por una sola página, pulse <Dividir en páginas>  introduzca el número de páginas en las que los desea dividir  pulse <Aceptar>. Si desea escanear las imágenes como un único archivo, pulse <Dividir en páginas>  <Cancelar opciones>.
Seleccionar PDF
Seleccionar el formato Word para OOXML
Seleccionar el formato PowerPoint para OOXML
6
Pulse <Aceptar>.
Los originales largos (25 1/4" (432 mm) o superior) no se pueden utilizar con <OCR (texto búsquedas)>.
Si selecciona <PDF (OCR)> o <OOXML (OCR)> como formato de archivo y <Lectura inteligente> se establece como <Sí> en <Opciones de OCR (texto para búsquedas)>/<OCR (priorizar velocidad)>, se detecta la orientación del original y, si es necesario, se gira el documento automáticamente antes de enviarlo. <Opciones de OCR (texto para búsquedas)>
Si selecciona <OCR (texto búsquedas)>, solo podrá realizar envíos con una escala de zoom de <Directa>/<1:1> o <Auto>.
Si selecciona <PDF> como formato de archivo, puede establecer <Compacto> y <OCR (texto búsquedas)> al mismo tiempo. En ese caso, <PDF (Compacto)> se muestra como formato de archivo en la pantalla de funciones básicas de Leer y enviar.
Si selecciona <Word> para <OOXML>, puede establecer eliminar las imágenes de fondo leídas. Podrá generar archivos Word fáciles de editar sin imágenes no deseadas. <Incluir imágenes de fondo en archivo de Word>
Si actualmente está utilizando la función <Leer y guardar>, solo puede especificar el idioma OCR cuando <Word> esté seleccionado para <OOXML> o <OCR (priorizar precisión)>, para <PDF>.

Los resultados del OCR no son satisfactorios

Al crear archivos PDF/OOXML con texto de búsqueda, el OCR (Reconocimiento óptico de caracteres) puede no procesarse correctamente. Esto puede deberse a que las opciones del equipo, o el idioma, el tipo de carácter o el formato del documento original, no son adecuados para el procesamiento del OCR.

Comprobar las opciones del equipo y los idiomas admitidos

Puede mejorar el procesamiento del OCR personalizando las opciones del equipo en lo que se refiere al reconocimiento de caracteres en función de los originales, o utilizando tipos de caracteres o fuentes adecuados en los originales, para que el equipo pueda reconocer los caracteres.

Opciones e idiomas del procesamiento del OCR

Elemento
Detalles
Opciones de idioma para el reconocimiento de caracteres
Cuando se especifica un lenguaje con OCR seleccionado en <Formato de archivo>:
los caracteres se reconocen en función del idioma que se selecciona para cada formato de archivo.
Cuando no se especifica un lenguaje con OCR seleccionado en <Formato de archivo>:
los caracteres se reconocen en función del idioma que se selecciona en <Cambio de idioma/teclado> (<Cambio de idioma/teclado>).*1
Idiomas asiáticos reconocibles*2
Japonés, chino (simplificado), chino (tradicional), coreano
Tipos de caracteres y fuentes reconocibles (Idiomas asiáticos)
Idiomas y grupos de idiomas europeos reconocibles
Idiomas:
inglés, francés, italiano, alemán, español, neerlandés, portugués, albano, catalán, danés, finlandés, islandés, noruego, sueco, croata, checo, húngaro, polaco, eslovaco, estonio, letón, lituano, ruso, griego, turco, esloveno*3, rumano*3, búlgaro*3, hebreo*3
Grupos de idiomas:
Europeos occidentales (ISO)*4, Centroeuropeo (ISO)*5, Bálticos (ISO)*6
Tipos de caracteres y fuentes reconocibles (Idiomas europeos)
*1 Los idiomas visualizados en la lista pueden variar. Si selecciona inglés, francés, italiano, alemán, español, tailandés o vietnamita, el idioma seleccionado se reconoce como Europeo occidental (ISO).
*2 Los idiomas asiáticos no pueden detectarse cuando se selecciona <OCR (priorizar precisión)>.
*3 Solo puede seleccionarse con <OCR (priorizar precisión)>.
*4 Incluido inglés, francés, italiano, alemán, español, holandés, portugués, albano, catalán, danés, finlandés, islandés, noruego y sueco.
*5 Incluido croata, checo, húngaro, polaco y eslovaco.
*6 Incluido estonio, letón y lituano.

Tipos de caracteres y fuentes reconocibles (Idiomas asiáticos)

Elemento
Detalles
Tipos de caracteres reconocibles
Japonés:
Caracteres alfanuméricos, Caracteres kana, Caracteres kanji (primer nivel JIS y algunos del segundo nivel JIS), Símbolos
Chino (simplificado):
Caracteres alfanuméricos, Caracteres chinos, Símbolos (GB2312-80)
Chino (tradicional):
Caracteres alfanuméricos, Caracteres chinos, Símbolos (Big5)
Coreano:
Caracteres alfanuméricos, Caracteres chinos, Caracteres Hangul, Símbolos (KSC5601)
Fuentes reconocibles
Se admiten múltiples fuentes. (Se recomienda el tipo Ming-cho.)
Los caracteres en cursiva no se pueden reconocer.
Fuentes empleadas para caracteres convertidos (solo cuando se selecciona Word como formato de archivo)
Japonés:
Caracteres asiáticos: MS Mincho
Caracteres europeos: Century
Chino (simplificado):
Caracteres asiáticos: SimSun
Caracteres europeos: Calibri
Chino (tradicional):
Caracteres asiáticos: PMingLiU
Caracteres europeos: Calibri

Tipos de caracteres y fuentes reconocibles (Idiomas europeos)

Elemento
Detalles
Tipos de caracteres reconocibles
Caracteres alfanuméricos, Caracteres especiales del idioma reconocido*1, Símbolos
Fuentes reconocibles
Se admiten múltiples fuentes. (Se recomiendan Times, Century y Arial.)*2
Los caracteres en cursiva se pueden reconocer.
Fuentes empleadas para caracteres convertidos (solo cuando se selecciona Word como formato de archivo)
Calibri
La cursiva no se reproduce.
*1 Se pueden reconocer los siguientes caracteres griegos especiales. También se pueden reconocer los caracteres especiales de cada idioma. Algunos caracteres especiales no se pueden reconocer en función de los idiomas.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ,υ, φ, χ, ψ, ω
*2 Cuando se selecciona <OCR (priorizar precisión)>, se reconocen las fuentes de tipo Arial, Times New Roman y Courier New.

Comprobar el formato de los documentos originales

Utilice originales adecuados para el procesamiento OCR para mejorar la precisión del procesamiento al crear archivos PDF/OOXML que permitan realizar búsquedas.
Elemento
Detalles
Formato del original
Documentos impresos, documentos del procesador Word (documentos consistentes en texto, gráficos, fotografías o tablas, sin inclinación de los caracteres)
Formato de texto
Escritura horizontal y vertical (los documentos que contienen escritura horizontal y vertical también se pueden reconocer)
Solo se puede reconocer la escritura horizontal de los idiomas europeos y el texto coreano.
Documentos de una a tres columnas sin opciones de columnas complejas
Tamaño de los caracteres
8 a 40 puntos
Formato de tabla (Solo para formato Word)
Tablas que cumplen las condiciones siguientes:
Las tablas constan de cuadrados divididos por líneas sólidas
Tablas con hasta 32 columnas
Tablas con hasta 32 filas
Algunos originales aptos para el procesamiento con OCR podrían no procesarse correctamente.
No se puede conseguir una alta precisión con originales que contengan una gran cantidad de texto en cada página.
Los caracteres podrían ser sustituidos por caracteres no deseados o podrían no aparecer debido al color de fondo del original, a la forma y el tamaño de los caracteres o a que los caracteres están torcidos.*
Los párrafos, saltos de línea o tablas pueden no reproducirse.*
Algunas partes de ilustraciones, fotografías o impresiones de sellos pueden reconocerse como caracteres y ser sustituidos por caracteres.*
* Si se selecciona Word como formato del archivo.
6H34-08U