Digitalizando com a Função OCR

Este modo permite que você execute OCR (reconhecimento óptico de caractere) para extrair dados que podem ser reconhecidos como texto a partir de uma imagem digitalizada e criar um arquivo PDF/OOXML (pptx/docx) pesquisável. Também é possível definir <Compact> se o formato de arquivo selecionado é PDF.

Digitalizando com OCR

1
Coloque o original.Posicionando originais
2
Pressione <Scan and Send>. Tela <Home>
3
Especifique o destino na tela de Recursos básicos de digitalização. Tela de Recursos básicos de digitalização
4
Especifique as configurações de digitalização conforme necessário. Operações básicas para digitalização de originais
5
Selecione um formato de arquivo.
Caso deseje separar múltiplas imagens e enviá-las como arquivos separados, cada um consistindo de apenas uma página, pressione <Divide into Pages>  insira o número de páginas a dividir  pressione <OK>. Caso deseje digitalizar as imagens como um arquivo único, pressione <Divide into Pages>  <Cancel Settings>.
Para selecionar PDF
Para selecionar o formato Word para OOXML
Para selecionar o formato PowerPoint para OOXML
6
Pressione <OK>.
Originais de tira longa (25 1/4" (432 mm) ou maior) não podem ser usados com <OCR (Text Searchable)>.
Se você selecionar <PDF (OCR)> ou <OOXML (OCR)> como formato de arquivo, e <Smart Scan> estiver configurado como <On> em <OCR (Text Searchable) Settings>/<OCR (Prioritize Speed)>, a orientação do original será detectada e o documento será girado automaticamente antes do envio, se necessário. <OCR (Text Searchable) Settings>
Se você selecionar <OCR (Text Searchable)>, só será possível enviar a uma taxa de zoom de <Direct>/<1:1> ou <Auto>.
Se você selecionar <PDF> como o formato de arquivo, poderá configurar <Compact> e <OCR (Text Searchable)> ao mesmo tempo. Nesse caso, <PDF (Compact)> será exibido como o formato do arquivo na tela de Recursos básicos de digitalização e envio.
Se você selecionar <Word> para <OOXML>, poderá configurar para excluir imagens de fundo digitalizadas. É possível gerar arquivos de Word que são fáceis de editar sem imagens indesejadas. <Include Background Images in Word File>
Se estiver usando a função <Scan and Store>, a linguagem OCR poderá ser especificada apenas quando <Word> for selecionado para <OOXML> ou <OCR (Prioritize Precision)> for selecionado para <PDF>.

Resultados de OCR não estão satisfatórios

Quando arquivos PDF/OOXML com pesquisa de texto são criados, o OCR (Reconhecimento Óptico de Caractere) pode não ser processado adequadamente. Isso pode ser devido às configurações da máquina, ou ao idioma, tipo de caractere ou formato do documento não ser adequado para o processamento OCR.

Verificando as configurações da máquina e idiomas suportados

É possível melhorar o processamento OCR ao personalizar as configurações da máquina quanto ao reconhecimento de caracteres de acordo com os originais, ou ao usar tipos ou fontes de caracteres nos originais de modo que a máquina possa reconhecer os caracteres.

Configurações e idiomas para processamento OCR

Item
Detalhes
Configurações de idioma para reconhecimento de caracteres
Quando um idioma não é especificado com o OCR selecionado em <File Format>:
Os caracteres são reconhecidos com base no idioma selecionado para cada formato de arquivo.
Quando um idioma não é especificado com o OCR selecionado em <File Format>:
Os caracteres são reconhecidos com base no idioma selecionado por você <Switch Language/Keyboard> (<Switch Language/Keyboard>).*1
Idiomas asiáticos reconhecíveis*2
Japonês, chinês (simplificado), chinês (tradicional), coreano
Tipos e fontes de caracteres reconhecíveis (Idiomas asiáticos)
Idiomas europeus e grupos linguísticos reconhecíveis
Idiomas:
inglês, francês, italiano, alemão, espanhol, holandês, português, albanês, catalão, dinamarquês, finlandês, islandês, norueguês, sueco, croata, tcheco, húngaro, polonês, eslovaco, estoniano, letão, lituano, russo, grego, turco, esloveno*3, romeno*3, búlgaro*3, hebraico*3
Grupos linguísticos:
Europeu Ocidental (ISO)*4, Centro-Europeu (ISO)*5, Báltico (ISO)*6
Tipos e fontes de caracteres reconhecíveis (Idiomas europeus)
*1 Os idiomas exibidos na lista podem variar. Caso você selecione inglês, francês, italiano, alemão, espanhol, tailandês ou vietnamita, o idioma selecionado será reconhecido como Europeu Ocidental (ISO).
*2 Idiomas asiáticos não são detectados quando <OCR (Prioritize Precision)> está selecionado.
*3 Só pode ser selecionado com <OCR (Prioritize Precision)>.
*4 Incluindo inglês, francês, italiano, alemão, espanhol, holandês, português, albanês, catalão, dinamarquês, finlandês, islandês, norueguês e sueco.
*5 Incluindo croata, tcheco, húngaro, polonês e eslovaco.
*6 Incluindo estoniano, letão e lituano.

Tipos e fontes de caracteres reconhecíveis (Idiomas asiáticos)

Item
Detalhes
Tipos de caracteres reconhecíveis
Japonês:
caracteres alfanuméricos, caracteres kana, caracteres kanji (primeiro nível de JIS e alguns dos JIS de segundo nível), símbolos
Chinês (simplificado):
caracteres alfanuméricos, caracteres chineses, símbolos (GB2312-80)
Chinês (simplificado):
caracteres alfanuméricos, caracteres chineses, símbolos (Big5)
Coreano:
caracteres alfanuméricos, caracteres chineses, caracteres hangul, símbolos (KSC5601)
Fontes reconhecíveis
Múltiplas fontes são suportadas. (tipo Ming-cho é recomendado.)
Caracteres em itálico não podem ser reconhecidos.
Fontes usadas para caracteres convertidos (apenas quando Word é selecionado como formato de arquivo)
Japonês:
caracteres asiáticos: MS Mincho
Caracteres europeus: Century
Chinês (simplificado):
caracteres asiáticos: SimSun
Caracteres europeus: Calibri
Chinês (tradicional):
caracteres asiáticos: PMingLiU
Caracteres europeus: Calibri

Tipos e fontes de caracteres reconhecíveis (Idiomas europeus)

Item
Detalhes
Tipos de caracteres reconhecíveis
Caracteres alfanuméricos, caracteres especiais do idioma reconhecido*1, símbolos
Fontes reconhecíveis
Múltiplas fontes são suportadas. (Times, Century e Arial são recomendadas.)*2
Caracteres em itálico podem ser reconhecidos.
Fontes usadas para caracteres convertidos (apenas quando Word é selecionado como formato de arquivo)
Calibri
Estilo itálico não é reproduzido.
*1 Os caracteres especiais gregos podem ser reconhecidos. Caracteres especiais para cada idioma também podem ser reconhecidos. Alguns caracteres especiais não podem ser reconhecidos, dependendo dos idiomas.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω
*2 Quando <OCR (Prioritize Precision)> é selecionado, as fontes Arial, Times New Roman e Courier New são reconhecidas.

Verificando o formato dos documentos originais

Use originais compatíveis com processamento OCR para aumentar a precisão de processamento ao criar arquivos PDF/OOXML pesquisáveis.
Item
Detalhes
Formato original
Documentos impressos, documentos de processador Word (documentos consistindo de texto, gráficos, fotografias ou tabelas e sem caracteres oblíquos)
Formato de texto
Escrita horizontal e vertical (documentos contendo tanto escrita horizontal como vertical podem ser reconhecidos também)
Apenas escrita horizontal pode ser reconhecida para idiomas europeus e texto em coreano.
Documentos com uma a três colunas sem configurações complexas de coluna
Tamanho do caractere
8 a 40 pontos
Formato de tabela (apenas para formatação do Word)
Tabelas que sigam as seguintes condições:
Tabelas consistindo em quadrados divididos por linhas sólidas
Tabelas com até 32 colunas
Tabelas com até 32 linhas
Alguns originais compatíveis com processamento OCR podem não ser processados adequadamente.
Máxima precisão pode não ser atingida com originais incluindo grande quantidade de texto em cada página.
Caracteres podem ser substituídos por caracteres indesejados ou não ser lidos devido a cor de fundo, forma e tamanho dos caracteres do original, ou devido a caracteres inclinados.*
Parágrafos, quebras de linha ou tabelas podem não ser reproduzidas.*
Algumas partes de ilustrações, fotografias ou impressões de selo podem ser reconhecidas como caracteres e substituídas por caracteres.*
* Quando Word for escolhido como o formato de arquivo.
8684-0C9