Сканирование с помощью функции OCR

Этот режим позволяет выполнить OCR (оптическое распознавание символов) для извлечения данных, которые могут быть распознаны в отсканированном изображении как текст, и создать файл PDF/XPS/OOXML (PPTX/DOCX) с возможностью поиска. Если выбран формат файла PDF или XPS, можно также задать режим <Компактный>.

Сведения о дополнительно приобретаемых модулях, которые требуются для использования этой функции, и форматах файлов см. в разделе Дополнительные устройства системы.

Сканирование с помощью OCR

Неудовлетворительные результаты распознавания текста

Сканирование с помощью OCR

Установите оригинал. Размещение оригиналов

Нажмите <Сканировать и отправить>. Экран <Главный>

На экране основных функций сканирования укажите адресата. Экран основных функций сканирования

При необходимости укажите параметры сканирования. Основные операции сканирования оригиналов

Выберите формат файла.

Если требуется разделить документ на несколько изображений и отправлять их как отдельные файлы, каждый из которых состоит только из одной страницы, нажмите <Разделить на страницы>

введите количество страниц для разделения

нажмите кнопку <OK>. Если требуется отсканировать изображения в виде одного файла, нажмите <Разделить на страницы>

<Отмена парам.>.

Выбор формата PDF

Выберите <PDF>

нажмите <OCR (Приоритет скорости)> или <OCR (Приоритет точности)>.

Функцию OCR (Приоритет точности) невозможно выполнить, если для параметра <Контур и сглаживание> выбрано значение <OCR (Приоритет точности)>.

Если задан как параметр <OCR (Приоритет точности)>, так и параметр <Компактный>, настройка <Уровень качества изобр. для Компактн.> отключается. <Уровень качества изобр. для Компактн.>

Если создать PDF-файл с одновременно установленными параметрами <OCR (Приоритет точности)> и <Компактный>, качество изображения может отличаться от качества PDF-файла, созданного с заданными параметрами <OCR (Приоритет скорости)> и <Компактный>.

Чтобы изменить язык, используемый для OCR, нажмите <Язык OCR>

выберите язык

нажмите <OK>.

Функция <OCR (Приоритет точности)> позволяет распознать только европейские языки. Параметры и языки для функции OCR

Выбор формата XPS

1	Выберите <XPS> нажмите <OCR (Поиск по тексту)>. Чтобы изменить язык, используемый для OCR, нажмите <Язык OCR> выберите язык нажмите <OK>.

Чтобы выбрать формат Word для OOXML, выполните следующие действия.

1	Выберите <OOXML> <Word>. Чтобы изменить язык, используемый для OCR, нажмите <Изменить> выберите язык или группу языков нажмите <OK>. Выберите язык или группу языков в соответствии с языком, используемым в сканируемых документах.

Чтобы выбрать формат PowerPoint для OOXML, выполните следующие действия.

1	Выберите <OOXML> <PowerPoint> <OCR (Поиск по тексту)>.
2	Выберите язык для использования в OCR нажмите <OK>.

Нажмите <OK>.


Если выбран формат файла <PDF (OCR)>, <XPS (OCR)> или <OOXML (OCR)> и для параметра <Специальное сканирование> в разделе <Вкл.>/<OCR (Text Searchable) Settings> задано значение <OCR (Приоритет скорости)>, определяется ориентация оригинала и при необходимости документ перед отправкой автоматически поворачивается. <Параметры OCR (поиск по тексту)> Если в качестве формата файла выбран <PDF> или <XPS>, можно настроить режимы <Компактный> и <OCR (Поиск по тексту)> одновременно. В таком случае на экране основных функций сканирования и отправки для формата файла отображается значение <PDF (Компактный)> или <XPS (Компактный)>. Если выбран вариант <Word> для формата <OOXML>, можно задать удаление отсканированных фоновых изображений. Можно создавать удобные для редактирования файлы Word без ненужных изображений. <Включить фоновые изображ. в файл Word> Если вы используете функцию <Сканировать и сохранить>, язык OCR можно указать только когда значение <Word> выбрано для параметра <OOXML> или значение <OCR (Приоритет точности)> выбрано для параметра <PDF>.

Если выбран формат файла <PDF (OCR)>, <XPS (OCR)> или <OOXML (OCR)> и для параметра <Специальное сканирование> в разделе <Вкл.>/<OCR (Text Searchable) Settings> задано значение <OCR (Приоритет скорости)>, определяется ориентация оригинала и при необходимости документ перед отправкой автоматически поворачивается. <Параметры OCR (поиск по тексту)>

Если в качестве формата файла выбран <PDF> или <XPS>, можно настроить режимы <Компактный> и <OCR (Поиск по тексту)> одновременно. В таком случае на экране основных функций сканирования и отправки для формата файла отображается значение <PDF (Компактный)> или <XPS (Компактный)>.

Если выбран вариант <Word> для формата <OOXML>, можно задать удаление отсканированных фоновых изображений. Можно создавать удобные для редактирования файлы Word без ненужных изображений. <Включить фоновые изображ. в файл Word>

Если вы используете функцию <Сканировать и сохранить>, язык OCR можно указать только когда значение <Word> выбрано для параметра <OOXML> или значение <OCR (Приоритет точности)> выбрано для параметра <PDF>.

Неудовлетворительные результаты распознавания текста

Во время создания файлов в формате PDF/XPS/OOXML, которые поддерживают поиск текста, функция оптического распознавания текста (OCR) может работать неправильно. Это может быть вызвано настройками аппарата, а также языком, типом символов или форматом исходного документа, которые не поддерживаются функцией OCR.

Настройки аппарата и поддерживаемые языки

Чтобы улучшить работу функции OCR, можно настроить параметры аппарата, связанные с распознаванием символов в соответствии с типом оригинала, а также путем использования в оригиналах подходящих типов символов или шрифтов, чтобы аппарат гарантированно распознал текст.

Параметры и языки для функции OCR

Элемент	Детали
Параметры языка для распознавания текста	Если язык указан, а в разделе <Формат файла> выбран параметр OCR: распознавание текста выполняется на основе языка, выбранного для каждого формата файла. Если язык не указан, а в разделе <Формат файла> выбран параметр OCR: распознавание текста выполняется на основе языка, выбранного в меню <Перекл. языка/клавиатуры> (<Перекл. языка/клавиатуры>).*1
Азиатские языки, которые можно распознать*2	Японский, китайский (упрощенное письмо), китайский (традиционное письмо), корейский Типы символов и шрифты, которые можно распознать (азиатские языки)
Европейские языки и группы языков, которые можно распознать	Языки: английский, французский, итальянский, немецкий, испанский, нидерландский, португальский, албанский, каталанский, датский, финский, исландский, норвежский, шведский, хорватский, чешский, венгерский, польский, словацкий, эстонский, латышский, литовский, русский, греческий, турецкий, словенский3, румынский3, болгарский3, иврит3 Группы языков: западноевропейские (ISO)4, центральноевропейские (ISO)5, балтийские (ISO)*6 Типы символов и шрифты, которые можно распознать (европейские языки)

*1 Языки, представленные в списке, могут различаться. Если выбран английский, французский, итальянский, немецкий, испанский, тайский или вьетнамский язык, то выбранный язык распознается как западноевропейский (ISO).

*2 Азиатские языки не распознаются, если выбран параметр <OCR (Приоритет точности)>.

*3 Это можно выбрать только с <OCR (Приоритет точности)>.

*4 Включая английский, французский, итальянский, немецкий, испанский, нидерландский, португальский, албанский, каталанский, датский, финский, исландский, норвежский и шведский языки.

*5 Включая хорватский, чешский, венгерский, польский и словацкий языки.

*6 Включая эстонский, латвийский и литовский языки.

Типы символов и шрифты, которые можно распознать (азиатские языки)

Элемент	Детали
Типы символов, которые можно распознать	Японский: буквенно-цифровые символы, символы каны, символы кандзи (первый уровень JIS, второй уровень JIS (частично)), знаки Китайский (упрощенное письмо): буквенно-цифровые символы, китайские символы, знаки (GB2312-80) Китайский (традиционное письмо): буквенно-цифровые символы, китайские символы, знаки (Big5) Корейский: буквенно-цифровые символы, символы кандзи, корейские символы хангыля, знаки (KSC5601)
Шрифты, которые можно распознать	Поддержка многошрифтового распознавания. (рекомендуется стиль Ming-cho). Распознавание курсива невозможно.
Шрифты для преобразованных символов (только если в качестве формата файла выбран Word)	Японский: Символы азиатских языков: MS Mincho Символы европейских языков: Century Китайский (упрощенное письмо): Символы азиатских языков: SimSun Символы европейских языков: Calibri Китайский (традиционное письмо): Символы азиатских языков: PMingLiU Символы европейских языков: Calibri

Типы символов и шрифты, которые можно распознать (европейские языки)

Элемент	Детали
Типы символов, которые можно распознать	Алфавитно-цифровые символы, специальные символы распознаваемого языка*1, знаки
Шрифты, которые можно распознать	Поддержка многошрифтового распознавания. (Рекомендуются Times, Century и Arial.)*2 Распознавание курсива невозможно.
Шрифты для преобразованных символов (только если в качестве формата файла выбран Word)	Calibri Курсив не воспроизводится.

*1 Ниже перечислены символы греческого языка, которые можно распознать. Также можно распознать специальные символы этого языка. Специальные символы некоторых языков распознать невозможно.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

*2 Если выбран параметр <OCR (Приоритет точности)>, распознаются комплекты шрифтов Arial, Times New Roman и Courier New.

Формат исходного документа

Чтобы улучшить точность распознавания текста при создании файлов PDF/XPS/OOXML, которые поддерживают поиск текста, используйте оригиналы, которые подходят для оптического распознавания.

Элемент	Детали
Формат оригинала	Печатные документы, документы, созданные в текстовом редакторе Word (документы, которые включают текст, графические элементы, фотографии или таблицы и не содержат наклонных символов)
Формат текста	Горизонтальное и вертикальное письмо (возможно распознавание документов, которые содержат как горизонтальное, так и вертикальное письмо) Для европейских языков и корейского языка возможно распознавание только горизонтального письма. Документы, содержащие не более трех колонок (без сложных колонок)
Размер символов	8–40 пунктов
Формат таблицы (только для документов Word)	Таблицы, удовлетворяющие следующим условиям: таблица состоит из квадратов, разделенных толстыми границами; таблица содержит не более 32 столбцов; таблица содержит не более 32 строк.


Оптическое распознавание некоторых оригиналов, поддерживающих такую возможность, может выполняться неправильно. Высокая точность распознавания не гарантируется, если на каждой странице оригинала содержится большой объем текста. В зависимости от цвета фона оригинала, формы и размеров символов, а также от наклона символов некоторые символы могут быть ошибочно заменены или могут отсутствовать . Параграфы, разрывы строк и таблицы могут быть не распознаны. Некоторые части иллюстраций, фотографий или оттисков печатей могут быть распознаны и заменены текстом. Если в качестве формата файла выбран Word.

Оптическое распознавание некоторых оригиналов, поддерживающих такую возможность, может выполняться неправильно.

Высокая точность распознавания не гарантируется, если на каждой странице оригинала содержится большой объем текста.

В зависимости от цвета фона оригинала, формы и размеров символов, а также от наклона символов некоторые символы могут быть ошибочно заменены или могут отсутствовать *.

Параграфы, разрывы строк и таблицы могут быть не распознаны*.

Некоторые части иллюстраций, фотографий или оттисков печатей могут быть распознаны и заменены текстом*.

* Если в качестве формата файла выбран Word.