Jos OCR (Tekstihaku) ei toimi normaalisti

Tässä jaksossa kerrotaan miten OCR (Tekstihaku) -toiminto toimii kun luodaan haettavia PDF/XPS/OOXML -tiedostoja, OCR (Tekstihaku) -toiminnolle sopivasta tiedostomuodosta.

Tutustu seuraaviin ohjeisiin jos et saa kelvollista tulosta OCR (optical character recognition) -toiminnolla.

OCR (Tekstihaku) -toiminto luotaessa tekstihaku PDF/XPS/OOXML-tiedostoja

Tiedostomuoto haettavien PDF/XPS/OOXML-tiedostojen muodostamiseksi

OCR (Tekstihaku) -toiminto luotaessa tekstihaku PDF/XPS/OOXML-tiedostoja

Kun luodaan tekstihaku PDF/XPS/OOXML-tiedostoja, OCR:n tehokkuus vaihtelee valitun tiedostomuodon mukaan. Katso allaoleva taulukko.

TÄRKEÄÄ
Vaikka suoritat OCR:n alkuperäisten kielen mukaan, oikeaa tulosta ei ehkä saavuteta riippuen alkuperäisten teksti- ja tiedostomuodosta.

Nimike	Tiedostomuoto
Nimike	PDF/XPS/PowerPoint	Word
Tunnistuskieli	Merkit tunnistetaan yhdeksi seuraavista kielistä tai kieliryhmistä sen mukaan mikä kieli on valittu kohdassa [Vaihda kieli/näppäimistö] kohdassa [Yleisasetukset] (Asetukset/Tallennus)1 2	Valitse alkuperäisissä käytetty kieli seuraavista kielistä tai kieliryhmistä painamalla [Muuta]. Merkit tunnistetaan valitun kielen mukaan.
Aasialaiset kielet	Seuraavien kielten teksti tunnistetaan: japani, yksinkertainen kiina, perinteinen kiina, korea
Eurooppalaiset kielet	Seuraavien kielten tai kieliryhmien teksti tunnistetaan Kielet bulgaria, katalaani, kroatia, tsekki, tanska, hollanti, englanti, viro, suomi, ranska, saksa, kreikka, unkari, italia, norja, puola, portugali, romania, venäjä, slovakia, slovenia, espanja, ruotsi, turkki Kieliryhmät Länsi-Eurooppa (ISO), Keski-Eurooppa (ISO), Baltia (ISO) *3
Aasialaisten kielten merkkien tunnistus
Tunnistettavien merkkien tyyppi	Japani: Aakkosnumeeriset merkit, Kana-merkit, Kanji-merkit (JIS ensimmäinen aste, JIS toinen aste (osaksi)) Kiina (yksinkertainen): Aakkosnumeeriset merkit, Kiinalaiset merkit, Symbolit (GB2312-80) Kiina (perinteinen): Aakkosnumeeriset merkit, Kiinalaiset merkit, Symbolit (Big5) Korea: Aakkosnumeeriset merkit, Kanji-merkit, Korean Hangul -merkit, Symbolit (KSC5601)
Tunnistettavat fontit	Multi font tuettu (suositellaan Ming-cho -tyyppiä) Kursiivia ei tunnisteta
Muunnettu fontti	-	Kun japani on valittu: Aasialainen teksti: MS Mincho Eurooppalainen teksti: Century Kun yksinkertainen kiina on valittu: Aasialainen teksti: SimSun Eurooppalainen teksti: Calibri Kun perinteinen kiina on valittu: Aasialainen teksti: PMingLiU Eurooppalainen teksti: Calibri
Eurooppalaisten kielten merkkien tunnistus
Tunnistettavien merkkien tyyppi	Aakkosnumeeriset merkit, tunnistetun kielen erikoismerkit*4, Symbolit
Tunnistettavat fontit	Multi font tuettu (suositeltuja Times, Century ja Arial) Kursiivia ei tunnisteta
Muunnettu fontti	-	Näytetään Caliblina Kursiivia ei voi muuntaa

*1 Näyttökieli kieliluettelossa kohdassa [Vaihda kieli/näppäimistö] kohdassa [Yleisasetukset] (Asetukset/Tallennus) saattaa poiketa.

*2 Jos valitset englanti, ranska, italia, saksa, espanja, thai tai vietnam kohdassa [Vaihda kieli/näppäimistö] kohdassa [Yleisasetukset] (Asetukset/Tallennus), kieli tunnistetaan länsi-eurooppalaiseksi (ISO).

*3 Kukin kieliryhmä koostuu seuraavista kielistä. Jos valitset kieliryhmän, tunnistetaan teksti joka on kirjoitettu ryhmään kuuluvalla kielellä.

Länsi-Eurooppalainen (ISO):	englanti, ranska, italia, saksa, espanja, hollanti, portugali, albania, katalaani, tanska, suomi, islanti, norja, ruotsi
Keski-Eurooppalainen (ISO):	kroatia, tsekki, unkari, puola, slovakki
Baltia (ISO):	viro, latvia, liettua

*4 Jos valitset kreikan, seuraavat erikoismerkit tunnistetaan. Jos valitset muita kieliä, kunkin kielen erikoismerkit tunnistetaan. Joitakin erikoismerkkejä ei tunnisteta, riippuen kielestä.

Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

Tiedostomuoto haettavien PDF/XPS/OOXML-tiedostojen muodostamiseksi

Kun käytät sopivaa tiedostomuotoa OCR:ään, voit parantaa OCR:n tuloksen tarkkuutta.

Jos et saa sopivaa OCR-tulosta, varmista että skannatun alkuperäisen tiedostomuoto sopii OCR:ään.

TÄRKEÄÄ
Jos käytät alkuperäisiä jotka sisältävät paljon tekstiä per sivu, OCR ei ehkä toimi oikein. Kun valitset Word-muodon, OCR ei ehkä toimi oikein vaikka käytät suositeltua tiedostomuotoa. Riippuen taustan väristä, kirjasintyypistä, merkkien koosta ja merkkien vinoudesta, jotkut merkit saattavat korvautua väärin tai puuttua OCR-tuloksesta. Alkuperäisen kappalejakoja, välejä ja taulukkoja ei ehkä tunnisteta. Kuvan osia, kuten grafiikkaa, valokuvia tai allekirjoituksia ei ehkä tunnisteta, ja ne korvataan tekstillä.

TÄRKEÄÄ

Jos käytät alkuperäisiä jotka sisältävät paljon tekstiä per sivu, OCR ei ehkä toimi oikein.

Kun valitset Word-muodon, OCR ei ehkä toimi oikein vaikka käytät suositeltua tiedostomuotoa.

Riippuen taustan väristä, kirjasintyypistä, merkkien koosta ja merkkien vinoudesta, jotkut merkit saattavat korvautua väärin tai puuttua OCR-tuloksesta.

Alkuperäisen kappalejakoja, välejä ja taulukkoja ei ehkä tunnisteta.

Kuvan osia, kuten grafiikkaa, valokuvia tai allekirjoituksia ei ehkä tunnisteta, ja ne korvataan tekstillä.

Nimike	Tiedot
Alkuperäisen muoto	Tulostetut asiakirjat, tekstiasiakirjat (asiakirja joka sisältää tekstiä, muotoja, kuvia, taulukoita mutta ei vinoa tekstiä)
Tekstin muoto	Vaakasuuntainen kirjoitus, Pystysuuntainen kirjoitus Asiakirjat jotka sisältävät sekä vaaakasuuntaista että pystysuuntaista kirjoitusta voidaan tunnistaa. Vain vaakasuuntainen kirjoitus voidaan tunnistaa eurooppalaisista kielistä ja koreasta. Asiakirjat joissa ei ole monimutkaisia sarakkeita
Merkkikoko	8 - 40 pistettä
Taulukon muoto (vain Word-asiakirjat)	Taulukot jotka täyttävät seuraavat ehdot Neliönmuotoiset taulukot joissa on yhtenäiset linjat Rivien enimmäismäärä 32 Sarakkeiden enimmäismäärä 32