Digitalizando com a Função OCR

Este modo permite que você execute OCR (reconhecimento óptico de caractere) para extrair dados que podem ser reconhecidos como texto a partir de uma imagem digitalizada e criar um arquivo PDF/XPS/OOXML (pptx/docx) pesquisável. Também é possível definir <Compacto> se o formato de arquivo selecionado é PDF ou XPS.

Digitalizando com OCR

1
Coloque o original.Posicionando originais
2
Pressione <Ler e Enviar>. Tela <Início>
3
Especifique o destino na tela de Recursos básicos de digitalização. Tela de Recursos básicos de digitalização
4
Especifique as configurações de digitalização conforme necessário. Operações básicas para digitalização de originais
5
Selecione um formato de arquivo.
Caso deseje separar múltiplas imagens e enviá-las como arquivos separados, cada um consistindo de apenas uma página, pressione <Dividir em páginas>  insira o número de páginas a dividir  pressione <OK>. Caso deseje digitalizar as imagens como um arquivo único, pressione <Dividir em páginas>  <Cancelar progr.>.
Para selecionar PDF
Para selecionar o formato Word para OOXML
Para selecionar o formato PowerPoint para OOXML
6
Pressione <OK>.
Se você selecionar <PDF; OCR> ou <XPS; OCR> como formato de arquivo, e <OOXML; OCR> estiver configurado como <Leitura inteligente> em <On>, a orientação do original será detectada e o documento será automaticamente rotado caso necessário antes de ser enviado. Programações OCR (Texto pesquisável)
Se você selecionar <PDF> como o formato de arquivo, poderá configurar <Compacto> e <OCR (Texto pesquisável)> ao mesmo tempo. Nesse caso, <PDF; Compacto> será exibido como o formato do arquivo na tela de Recursos básicos de digitalização.
Se você selecionar <Word> para <OOXML>, poderá configurar para excluir imagens de fundo digitalizadas. É possível gerar arquivos de Word que são fáceis de editar sem imagens indesejadas. <Incluir imagens de fundo no ficheiro Word>
Selecione um idioma ou grupo de acordo com o idioma usado nos originais a digitalizar. Configurações e idiomas para processamento OCR

Resultados de OCR não estão satisfatórios

Quando arquivos PDF/OOXML com pesquisa de texto são criados, o OCR (Reconhecimento Óptico de Caractere) pode não ser processado adequadamente. Isso pode ser devido às configurações da máquina, ou ao idioma, tipo de caractere ou formato do documento não ser adequado para o processamento OCR.

Verificando as configurações da máquina e idiomas suportados

É possível melhorar o processamento OCR ao personalizar as configurações da máquina quanto ao reconhecimento de caracteres de acordo com os originais, ou ao usar tipos ou fontes de caracteres nos originais de modo que a máquina possa reconhecer os caracteres.

Configurações e idiomas para processamento OCR

Item
Detalhes
Configurações de idioma para reconhecimento de caracteres
Quando um idioma não é especificado com o OCR selecionado em <Formato fich.>:
Os caracteres são reconhecidos com base no idioma selecionado para cada formato de arquivo.
Quando um idioma não é especificado com o OCR selecionado em <Formato fich.>:
Os caracteres são reconhecidos com base no idioma selecionado por você <Comutação idioma/teclado> (<Comutação idioma/teclado>).*1
Idiomas asiáticos reconhecíveis
Japonês, chinês (simplificado), chinês (tradicional), coreano
Tipos e fontes de caracteres reconhecíveis (Idiomas asiáticos)
Idiomas europeus e grupos linguísticos reconhecíveis
Idiomas:
inglês, francês, italiano, alemão, espanhol, holandês, português, albanês, catalão, dinamarquês, finlandês, islandês, norueguês, sueco, croata, tcheco, húngaro, polonês, eslovaco, estoniano, letão, lituano, russo, grego, turco
Grupos linguísticos:
Europeu Ocidental (ISO)*2, Centro-Europeu (ISO)*3, Báltico (ISO)*4
Tipos e fontes de caracteres reconhecíveis (Idiomas europeus)
*1 Os idiomas exibidos na lista podem variar. Caso você selecione inglês, francês, italiano, alemão, espanhol, tailandês ou vietnamita, o idioma selecionado será reconhecido como Europeu Ocidental (ISO).
*2 Incluindo inglês, francês, italiano, alemão, espanhol, holandês, português, albanês, catalão, dinamarquês, finlandês, islandês, norueguês e sueco.
*3 Incluindo croata, tcheco, húngaro, polonês e eslovaco.
*4 Incluindo estoniano, letão e lituano.

Tipos e fontes de caracteres reconhecíveis (Idiomas asiáticos)

Item
Detalhes
Tipos de caracteres reconhecíveis
Japonês:
caracteres alfanuméricos, caracteres kana, caracteres kanji (primeiro nível de JIS e alguns dos JIS de segundo nível), símbolos
Chinês (simplificado):
caracteres alfanuméricos, caracteres chineses, símbolos (GB2312-80)
Chinês (simplificado):
caracteres alfanuméricos, caracteres chineses, símbolos (Big5)
Coreano:
caracteres alfanuméricos, caracteres chineses, caracteres hangul, símbolos (KSC5601)
Fontes reconhecíveis
Múltiplas fontes são suportadas. (tipo Ming-cho é recomendado.)
Caracteres em itálico não podem ser reconhecidos.
Fontes usadas para caracteres convertidos (apenas quando Word é selecionado como formato de arquivo)
Japonês:
caracteres asiáticos: MS Mincho
Caracteres europeus: Century
Chinês (simplificado):
caracteres asiáticos: SimSun
Caracteres europeus: Calibri
Chinês (tradicional):
caracteres asiáticos: PMingLiU
Caracteres europeus: Calibri

Tipos e fontes de caracteres reconhecíveis (Idiomas europeus)

Item
Detalhes
Tipos de caracteres reconhecíveis
Caracteres alfanuméricos, caracteres especiais do idioma reconhecido*, Símbolos
Fontes reconhecíveis
Múltiplas fontes são suportadas. (Times, Century e Arial são recomendadas.)
Caracteres em itálico podem ser reconhecidos.
Fontes usadas para caracteres convertidos (apenas quando Word é selecionado como formato de arquivo)
Calibri
Estilo itálico não é reproduzido.
* Os seguintes caracteres gregos especiais podem ser reconhecidos. Os caracteres especiais de cada idioma também podem ser reconhecidos. Alguns caracteres especiais não podem ser reconhecidos, dependendo dos idiomas.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ,υ, φ, χ, ψ, ω

Verificando o formato dos documentos originais

Use originais compatíveis com processamento OCR para aumentar a precisão de processamento ao criar arquivos PDF/OOXML pesquisáveis.
Item
Detalhes
Formato original
Documentos impressos, documentos de processador Word (documentos consistindo de texto, gráficos, fotografias ou tabelas e sem caracteres oblíquos)
Formato de texto
Escrita horizontal e vertical (documentos contendo tanto escrita horizontal como vertical podem ser reconhecidos também)
Apenas escrita horizontal pode ser reconhecida para idiomas europeus e texto em coreano.
Documentos com uma a três colunas sem configurações complexas de coluna
Tamanho do caractere
8 a 40 pontos
Formato de tabela (apenas para formatação do Word)
Tabelas que sigam as seguintes condições:
Tabelas consistindo em quadrados divididos por linhas sólidas
Tabelas com até 32 colunas
Tabelas com até 32 linhas
Alguns originais compatíveis com processamento OCR podem não ser processados adequadamente.
Máxima precisão pode não ser atingida com originais incluindo grande quantidade de texto em cada página.
Caracteres podem ser substituídos por caracteres indesejados ou não ser lidos devido a cor de fundo, forma e tamanho dos caracteres do original, ou devido a caracteres inclinados.*
Parágrafos, quebras de linha ou tabelas podem não ser reproduzidas.*
Algumas partes de ilustrações, fotografias ou impressões de selo podem ser reconhecidas como caracteres e substituídas por caracteres.*
* Quando Word for escolhido como o formato de arquivo.
9XUY-08H