Сканирование с помощью функции OCR

Этот режим позволяет выполнить OCR (оптическое распознавание символов) для извлечения данных, которые могут быть распознаны в отсканированном изображении как текст, и создать файл PDF/XPS/OOXML (PPTX/DOCX) с возможностью поиска. Если выбран формат файла PDF или XPS, можно также задать режим <Компактный>.

Сканирование с помощью OCR

Неудовлетворительные результаты распознавания текста с помощью OCR

Сканирование с помощью OCR

Установите оригинал. Размещение оригиналов

Нажмите <Сканировать и отправить>. Экран <Главный>

На экране основных функций сканирования укажите адресата. Экран основных функций сканирования

При необходимости укажите параметры сканирования. Основные операции сканирования оригиналов

Выберите формат файла.

Если требуется разделить документ на несколько изображений и отправлять их как отдельные файлы, каждый из которых состоит только из одной страницы, нажмите <Разбить на стр.>,

введите количество страниц для разделения

и нажмите кнопку <OK>. Если требуется отсканировать изображения в виде одного файла, нажмите <Разбить на стр.>

<Отмена парам.>.

Выбор формата PDF

1	Выберите <PDF> и нажмите <Задать детали> <OCR (поиск по тексту)>.
2	Чтобы изменить язык, используемый для OCR, нажмите <Язык OCR> выберите язык и нажмите <OK>.

Выбор формата XPS

1	Выберите <XPS> и нажмите <Задать детали> <OCR (Поиск по тексту)>.
2	Чтобы изменить язык, используемый для OCR, нажмите <Язык OCR> и выберите язык, затем нажмите <OK>.

Выбор формата Word для OOXML

1	Нажмите <OOXML> выберите в раскрывающемся списке пункт <Word>.

Чтобы изменить язык, используемый для OCR, нажмите <Задать детали>

<Изменить>

выберите язык

нажмите <OK>.

Выбор формата PowerPoint для OOXML

1	Нажмите <OOXML> выберите в раскрывающемся списке пункт <PowerPoint>.
2	Выберите <Задать детали> <OCR (поиск по тексту)>.
3	Чтобы изменить язык, используемый для OCR, нажмите <Язык OCR> выберите язык и нажмите <OK>.

Нажмите <OK>.


Если выбран формат файла <PDF; OCR>, <XPS; OCR> или <OOXML; OCR> и для параметра <Специальное сканирование> задано значение <Вкл.> в разделе <Параметры OCR (поиск по тексту)>, определяется ориентация оригинала и при необходимости документ перед отправкой автоматически поворачивается. <Параметры OCR (поиск по тексту)> Если в качестве формата файла выбран <PDF> или <XPS>, можно настроить режимы <Компактный> и <OCR (Поиск по тексту)> одновременно. В таком случае на экране основных функций сканирования и отправки для формата файла отображается значение <PDF; Компактный> или <XPS; Компактный>. Если выбран вариант <Word> для формата <OOXML>, можно задать удаление отсканированных фоновых изображений. Можно создавать удобные для редактирования файлы Word без ненужных изображений. <Включить фоновые изображ. в файл Word> Выберите один язык или одну группу в соответствии с языком, используемым в оригиналах для сканирования. Параметры и языки для функции OCR

Если выбран формат файла <PDF; OCR>, <XPS; OCR> или <OOXML; OCR> и для параметра <Специальное сканирование> задано значение <Вкл.> в разделе <Параметры OCR (поиск по тексту)>, определяется ориентация оригинала и при необходимости документ перед отправкой автоматически поворачивается. <Параметры OCR (поиск по тексту)>

Если в качестве формата файла выбран <PDF> или <XPS>, можно настроить режимы <Компактный> и <OCR (Поиск по тексту)> одновременно. В таком случае на экране основных функций сканирования и отправки для формата файла отображается значение <PDF; Компактный> или <XPS; Компактный>.

Если выбран вариант <Word> для формата <OOXML>, можно задать удаление отсканированных фоновых изображений. Можно создавать удобные для редактирования файлы Word без ненужных изображений. <Включить фоновые изображ. в файл Word>

Выберите один язык или одну группу в соответствии с языком, используемым в оригиналах для сканирования. Параметры и языки для функции OCR

Неудовлетворительные результаты распознавания текста с помощью OCR

Во время создания файлов в формате PDF/XPS/OOXML, которые поддерживают поиск текста, функция оптического распознавания текста (OCR) может работать неправильно. Это может быть вызвано настройками аппарата, а также языком, типом символов или форматом исходного документа, которые не поддерживаются функцией OCR.

Настройки аппарата и поддерживаемые языки

Чтобы улучшить работу функции OCR, можно настроить параметры аппарата, связанные с распознаванием символов в соответствии с типом оригинала, а также путем использования в оригиналах подходящих типов символов или шрифтов, чтобы аппарат гарантированно распознал текст.

Параметры и языки для функции OCR

Элемент	Детали
Параметры языка для распознавания текста	Если язык указан, а в разделе <Формат файла> выбран параметр OCR: распознавание текста выполняется на основе языка, выбранного для каждого формата файла. Если язык не указан, а в разделе <Формат файла> выбран параметр OCR: распознавание текста выполняется на основе языка, выбранного в меню <Перекл. языка/клавиатуры> (<Перекл. языка/клавиатуры>).*1
Азиатские языки, которые можно распознать	Японский, китайский (упрощенное письмо), китайский (традиционное письмо), корейский Типы символов и шрифты, которые можно распознать (азиатские языки)
Европейские языки и группы языков, которые можно распознать	Языки: английский, французский, итальянский, немецкий, испанский, нидерландский, португальский, албанский, каталанский, датский, финский, исландский, норвежский, шведский, хорватский, чешский, венгерский, польский, словацкий, эстонский, латышский, литовский, русский, греческий, турецкий Группы языков: западноевропейские (ISO)2, центральноевропейские (ISO)3, балтийские (ISO)*4 Типы символов и шрифты, которые можно распознать (европейские языки)

*1 Языки, представленные в списке, могут различаться. Если выбран английский, французский, итальянский, немецкий, испанский, тайский или вьетнамский язык, то выбранный язык распознается как западноевропейский (ISO).

*2 Включая английский, французский, итальянский, немецкий, испанский, нидерландский, португальский, албанский, каталанский, датский, финский, исландский, норвежский и шведский языки.

*3 Включая хорватский, чешский, венгерский, польский и словацкий языки.

*4 Включая эстонский, латвийский и литовский языки.

Типы символов и шрифты, которые можно распознать (азиатские языки)

Элемент	Детали
Типы символов, которые можно распознать	Японский: буквенно-цифровые символы, символы каны, символы кандзи (первый уровень JIS, второй уровень JIS (частично)), знаки Китайский (упрощенное письмо): буквенно-цифровые символы, китайские символы, знаки (GB2312-80) Китайский (традиционное письмо): буквенно-цифровые символы, китайские символы, знаки (Big5) Корейский: буквенно-цифровые символы, символы кандзи, корейские символы хангыля, знаки (KSC5601)
Шрифты, которые можно распознать	Поддержка многошрифтового распознавания. (рекомендуется стиль Ming-cho). Распознавание курсива невозможно.
Шрифты для преобразованных символов (только если в качестве формата файла выбран Word)	Японский: Символы азиатских языков: MS Mincho Символы европейских языков: Century Китайский (упрощенное письмо): Символы азиатских языков: SimSun Символы европейских языков: Calibri Китайский (традиционное письмо): Символы азиатских языков: PMingLiU Символы европейских языков: Calibri

Типы символов и шрифты, которые можно распознать (европейские языки)

Элемент	Детали
Типы символов, которые можно распознать	Алфавитно-цифровые символы, специальные символы распознаваемого языка*, символы
Шрифты, которые можно распознать	Поддержка многошрифтового распознавания. (рекомендуются Times, Century и Arial.) Возможно распознавание курсива.
Шрифты для преобразованных символов (только если в качестве формата файла выбран Word)	Calibri Курсив не воспроизводится.

* Ниже перечислены символы греческого языка, которые можно распознать. Также можно распознать специальные символы этого языка. Специальные символы некоторых языков распознать невозможно.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

Формат исходного документа

Чтобы улучшить точность распознавания текста при создании файлов PDF/XPS/OOXML, которые поддерживают поиск текста, используйте оригиналы, которые подходят для оптического распознавания.

Элемент	Детали
Формат оригинала	Печатные документы, документы, созданные в текстовом редакторе Word (документы, которые включают текст, графические элементы, фотографии или таблицы и не содержат наклонных символов)
Формат текста	Горизонтальное и вертикальное письмо (возможно распознавание документов, которые содержат как горизонтальное, так и вертикальное письмо) Для европейских языков и корейского языка возможно распознавание только горизонтального письма. Документы, содержащие не более трех колонок (без сложных колонок)
Размер символов	8–40 пунктов
Формат таблицы (только для документов Word)	Таблицы, удовлетворяющие следующим условиям: Таблица состоит из квадратов, разделенных толстыми границами Таблица содержит не более 32 столбцов Таблица содержит не более 32 строк


Оптическое распознавание некоторых оригиналов, поддерживающих такую возможность, может выполняться неправильно. Высокая точность распознавания не гарантируется, если на каждой странице оригинала содержится большой объем текста. В зависимости от цвета фона оригинала, формы и размеров символов, а также от наклона символов некоторые символы могут быть ошибочно заменены или могут отсутствовать . Параграфы, разрывы строк и таблицы могут быть не распознаны. Некоторые части иллюстраций, фотографий или оттисков печатей могут быть распознаны и заменены текстом. Если в качестве формата файла выбран Word.

Оптическое распознавание некоторых оригиналов, поддерживающих такую возможность, может выполняться неправильно.

Высокая точность распознавания не гарантируется, если на каждой странице оригинала содержится большой объем текста.

В зависимости от цвета фона оригинала, формы и размеров символов, а также от наклона символов некоторые символы могут быть ошибочно заменены или могут отсутствовать *.

Параграфы, разрывы строк и таблицы могут быть не распознаны*.

Некоторые части иллюстраций, фотографий или оттисков печатей могут быть распознаны и заменены текстом*.

* Если в качестве формата файла выбран Word.