Сканирование с помощью функции OCR

Этот режим позволяет выполнить OCR (оптическое распознавание символов) для извлечения данных, которые могут быть распознаны в отсканированном изображении как текст, и создать файл PDF/XPS/OOXML (PPTX/DOCX) с возможностью поиска. Если выбран формат файла PDF или XPS, можно также задать режим <Компактный>.

Сканирование с помощью OCR

1
Установите оригинал. Размещение оригиналов
2
Нажмите <Сканировать и отправить>. Экран <Главный>
3
На экране основных функций сканирования укажите адресата. Экран основных функций сканирования
4
При необходимости укажите параметры сканирования. Основные операции сканирования оригиналов
5
Выберите формат файла.
Если требуется разделить документ на несколько изображений и отправлять их как отдельные файлы, каждый из которых состоит только из одной страницы, нажмите <Разделить на страницы>  введите количество страниц для разделения  нажмите кнопку <OK>. Если требуется отсканировать изображения в виде одного файла, нажмите <Разделить на страницы>  <Отмена парам.>.
Выбор формата PDF
Выбор формата XPS
Чтобы выбрать формат Word для OOXML, выполните следующие действия.
Чтобы выбрать формат PowerPoint для OOXML, выполните следующие действия.
6
Нажмите <OK>.
В режиме <OCR (Поиск по тексту)> невозможно использовать оригиналы в виде длинной полосы (432 мм или более).
Если выбран формат файла <PDF (OCR)>, <XPS (OCR)> или <OOXML (OCR)> и для параметра <Специальное сканирование> в разделе <OCR (Text Searchable) Settings>/<OCR (Приоритет скорости)> задано значение <Вкл.>, определяется ориентация оригинала и при необходимости документ перед отправкой автоматически поворачивается. <Параметры OCR (поиск по тексту)>
Если выбран режим <OCR (Поиск по тексту)>, отправка возможна только с коэффициентом масштабирования <1:1> или <Auto>.
Если в качестве формата файла выбран <PDF> или <XPS>, можно настроить режимы <Компактный> и <OCR (Поиск по тексту)> одновременно. В таком случае на экране основных функций сканирования и отправки для формата файла отображается значение <PDF (Компактный)> или <XPS (Компактный)>.
Если выбран вариант <Word> для формата <OOXML>, можно задать удаление отсканированных фоновых изображений. Можно создавать удобные для редактирования файлы Word без ненужных изображений. <Включить фоновые изображ. в файл Word>
Если вы используете функцию <Сканировать и сохранить>, язык OCR можно указать только когда значение <Word> выбрано для параметра <OOXML> или значение <OCR (Приоритет точности)> выбрано для параметра <PDF>.

Неудовлетворительные результаты распознавания текста

Во время создания файлов в формате PDF/XPS/OOXML, которые поддерживают поиск текста, функция оптического распознавания текста (OCR) может работать неправильно. Это может быть вызвано настройками аппарата, а также языком, типом символов или форматом исходного документа, которые не поддерживаются функцией OCR.

Настройки аппарата и поддерживаемые языки

Чтобы улучшить работу функции OCR, можно настроить параметры аппарата, связанные с распознаванием символов в соответствии с типом оригинала, а также путем использования в оригиналах подходящих типов символов или шрифтов, чтобы аппарат гарантированно распознал текст.

Параметры и языки для функции OCR

Элемент
Детали
Параметры языка для распознавания текста
Если язык указан, а в разделе <Формат файла> выбран параметр OCR:
распознавание текста выполняется на основе языка, выбранного для каждого формата файла.
Если язык не указан, а в разделе <Формат файла> выбран параметр OCR:
распознавание текста выполняется на основе языка, выбранного в меню <Перекл. языка/клавиатуры> (<Перекл. языка/клавиатуры>).*1
Азиатские языки, которые можно распознать*2
Японский, китайский (упрощенное письмо), китайский (традиционное письмо), корейский
Типы символов и шрифты, которые можно распознать (азиатские языки)
Европейские языки и группы языков, которые можно распознать
Языки:
английский, французский, итальянский, немецкий, испанский, нидерландский, португальский, албанский, каталанский, датский, финский, исландский, норвежский, шведский, хорватский, чешский, венгерский, польский, словацкий, эстонский, латышский, литовский, русский, греческий, турецкий, словенский*3, румынский*3, болгарский*3, иврит*3
Группы языков:
западноевропейские (ISO)*4, центральноевропейские (ISO)*5, балтийские (ISO)*6
Типы символов и шрифты, которые можно распознать (европейские языки)
*1 Языки, представленные в списке, могут различаться. Если выбран английский, французский, итальянский, немецкий, испанский, тайский или вьетнамский язык, то выбранный язык распознается как западноевропейский (ISO).
*2 Азиатские языки не распознаются, если выбран параметр <OCR (Приоритет точности)>.
*3 Это можно выбрать только с <OCR (Приоритет точности)>.
*4 Включая английский, французский, итальянский, немецкий, испанский, нидерландский, португальский, албанский, каталанский, датский, финский, исландский, норвежский и шведский языки.
*5 Включая хорватский, чешский, венгерский, польский и словацкий языки.
*6 Включая эстонский, латвийский и литовский языки.

Типы символов и шрифты, которые можно распознать (азиатские языки)

Элемент
Детали
Типы символов, которые можно распознать
Японский:
буквенно-цифровые символы, символы каны, символы кандзи (первый уровень JIS, второй уровень JIS (частично)), знаки
Китайский (упрощенное письмо):
буквенно-цифровые символы, китайские символы, знаки (GB2312-80)
Китайский (традиционное письмо):
буквенно-цифровые символы, китайские символы, знаки (Big5)
Корейский:
буквенно-цифровые символы, символы кандзи, корейские символы хангыля, знаки (KSC5601)
Шрифты, которые можно распознать
Поддержка многошрифтового распознавания. (рекомендуется стиль Ming-cho).
Распознавание курсива невозможно.
Шрифты для преобразованных символов (только если в качестве формата файла выбран Word)
Японский:
Символы азиатских языков: MS Mincho
Символы европейских языков: Century
Китайский (упрощенное письмо):
Символы азиатских языков: SimSun
Символы европейских языков: Calibri
Китайский (традиционное письмо):
Символы азиатских языков: PMingLiU
Символы европейских языков: Calibri

Типы символов и шрифты, которые можно распознать (европейские языки)

Элемент
Детали
Типы символов, которые можно распознать
Алфавитно-цифровые символы, специальные символы распознаваемого языка*1, знаки
Шрифты, которые можно распознать
Поддержка многошрифтового распознавания. (Рекомендуются Times, Century и Arial.)*2
Возможно распознавание курсива.
Шрифты для преобразованных символов (только если в качестве формата файла выбран Word)
Calibri
Курсив не воспроизводится.
*1 Ниже перечислены символы греческого языка, которые можно распознать. Также можно распознать специальные символы этого языка. Специальные символы некоторых языков распознать невозможно.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω
*2 Если выбран параметр <OCR (Приоритет точности)>, распознаются комплекты шрифтов Arial, Times New Roman и Courier New.

Формат исходного документа

Чтобы улучшить точность распознавания текста при создании файлов PDF/XPS/OOXML, которые поддерживают поиск текста, используйте оригиналы, которые подходят для оптического распознавания.
Элемент
Детали
Формат оригинала
Печатные документы, документы, созданные в текстовом редакторе Word (документы, которые включают текст, графические элементы, фотографии или таблицы и не содержат наклонных символов)
Формат текста
Горизонтальное и вертикальное письмо (возможно распознавание документов, которые содержат как горизонтальное, так и вертикальное письмо)
Для европейских языков и корейского языка возможно распознавание только горизонтального письма.
Документы, содержащие не более трех колонок (без сложных колонок)
Размер символов
8–40 пунктов
Формат таблицы (только для документов Word)
Таблицы, удовлетворяющие следующим условиям:
таблица состоит из квадратов, разделенных толстыми границами;
таблица содержит не более 32 столбцов;
таблица содержит не более 32 строк.
Оптическое распознавание некоторых оригиналов, поддерживающих такую возможность, может выполняться неправильно.
Высокая точность распознавания не гарантируется, если на каждой странице оригинала содержится большой объем текста.
В зависимости от цвета фона оригинала, формы и размеров символов, а также от наклона символов некоторые символы могут быть ошибочно заменены или могут отсутствовать *.
Параграфы, разрывы строк и таблицы могут быть не распознаны*.
Некоторые части иллюстраций, фотографий или оттисков печатей могут быть распознаны и заменены текстом*.
* Если в качестве формата файла выбран Word.
AK19-0HU