Skannaaminen OCR-toiminnolla

Tällä toiminnolla voit suorittaa OCR:n (optical character recognition) irrottaaksesi skannatusta kuvasta datan, joka voidaan tunnistaa tekstiksi skannatusta kuvasta ja luoda haettavan PDF/XPS/OOXML (pptx/docx) -tiedoston. Voit myös valita <Pakattu>, jos valitset PDF- tai XPS-tiedostomuodon.

Skannaus OCR-toiminnolla

OCR-tulokset eivät ole tyydyttäviä

Skannaus OCR-toiminnolla

Aseta alkuperäinen. Alkuperäisten asettaminen

Valitse <Skannaa ja lähetä>. <Päävalikko>-näyttö

Määritä vastaanottaja skannauksen perustoimintonäytössä. Skannauksen perustoimintonäyttö

Määritä skannausasetukset tarpeen mukaan. Alkuperäisten skannauksen perustoiminnot

Valitse tiedostomuoto.

Jos haluat erottaa useita kuvia ja lähettää ne erillisinä tiedostoina, joissa on vain yksi sivu, valitse <Jaa sivuihin>

kirjoita jaettavien sivujen määrä

valitse <OK>. Jos haluat skannata kuvat yhtenä tiedostona, valitse <Jaa sivuihin>

<Peruuta asetukset>.

PDF:n valitseminen

Valitse <PDF>

valitse <OCR (priorisoitu nopeus)> tai <OCR (priorisoitu tarkkuus)>.

OCR (priorisoitu tarkkuus) -toimintoa ei voida suorittaa, jos <Jäljitys & Pehmennys> on valittu asetuksen <OCR (priorisoitu tarkkuus)> kanssa.

Jos määrität sekä <OCR (priorisoitu tarkkuus)> että <Pakattu>, <Kuvan laatutaso pakkaukselle> -asetus poistetaan käytöstä. <Kuvan laatutaso pakkaukselle>

Jos luot PDF-tiedoston käyttäen asetuksia <OCR (priorisoitu tarkkuus)> ja <Pakattu>, kuvanlaatu voi poiketa PDF-tiedostosta, joka on luotu asetuksilla <OCR (priorisoitu nopeus)> ja <Pakattu>.

Jos haluat vaihtaa OCR:n käyttämän kielen, valitse <OCR-kieli>

valitse kieli

paina <OK>.

Vain eurooppalaisia kieliä voidaan tunnistaa vaihtoehdolla <OCR (priorisoitu tarkkuus)>. Asetukset ja kielet OCR-tekstintunnistukseen

XPS:n valitseminen

1	Valitse <XPS> valitse <OCR (Tekstihaku)>. Jos haluat vaihtaa OCR:n käyttämän kielen, valitse <OCR-kieli> valitse kieli paina <OK>.

Word-muodon valitseminen OOXML:lle

1	Valitse <OOXML> <Word>. Vaihda OCR-kieli valitsemalla <Muuta> valitse kieli tai kieliryhmä valitse <OK>. Valitse kieli tai kieliryhmä sen mukaan mitä kieltä käytetään skannatuissa asiakirjoissa.

PowerPoint-muodon valitseminen OOXML:lle

1	Valitse <OOXML> <PowerPoint> <OCR (Tekstihaku)>.
2	Valitse OCR-toiminnossa käytettävä kieli valitse <OK>.

Valitse <OK>.


Jos valitset tiedostomuodoksi <PDF (OCR)>, <XPS (OCR)> tai <OOXML (OCR)> ja <Älyskannaus>-asetuksena on <Kyllä> kohdassa <OCR (Text Searchable) Settings>/<OCR (priorisoitu nopeus)>, alkuperäisen suunta tunnistetaan ja asiakirjaa käännetään tarvittaessa automaattisesti ennen sen lähettämistä. <OCR (Tekstihaku) -asetukset> Jos valitset tiedostomuodoksi <PDF> tai <XPS>, voit valita asetukset <Pakattu> ja <OCR (Tekstihaku)> samanaikaisesti. Tässä tapauksessa <PDF (Pakattu)> tai <XPS (pakattu)> näkyy tiedostomuotona skannauksen ja lähetyksen perustoimintonäytössä. Jos valitset <Word> kohdassa <OOXML>, voit määrittää skannatut taustakuvat poistettavaksi. Voit luoda Word-tiedostoja, joiden muokkaus on helppoa ilman tarpeettomia taustakuvia. <Sisällytä taustakuvat Word-tiedostoon> Jos käytät <Skannaa ja tallenna> -toimintoa, voit valita tekstintunnistustoiminnon vain, kun <Word> on valittu kohdassa <OOXML> tai <OCR (priorisoitu tarkkuus)> on valittu kohdassa <PDF>.

Jos valitset tiedostomuodoksi <PDF (OCR)>, <XPS (OCR)> tai <OOXML (OCR)> ja <Älyskannaus>-asetuksena on <Kyllä> kohdassa <OCR (Text Searchable) Settings>/<OCR (priorisoitu nopeus)>, alkuperäisen suunta tunnistetaan ja asiakirjaa käännetään tarvittaessa automaattisesti ennen sen lähettämistä. <OCR (Tekstihaku) -asetukset>

Jos valitset tiedostomuodoksi <PDF> tai <XPS>, voit valita asetukset <Pakattu> ja <OCR (Tekstihaku)> samanaikaisesti. Tässä tapauksessa <PDF (Pakattu)> tai <XPS (pakattu)> näkyy tiedostomuotona skannauksen ja lähetyksen perustoimintonäytössä.

Jos valitset <Word> kohdassa <OOXML>, voit määrittää skannatut taustakuvat poistettavaksi. Voit luoda Word-tiedostoja, joiden muokkaus on helppoa ilman tarpeettomia taustakuvia. <Sisällytä taustakuvat Word-tiedostoon>

Jos käytät <Skannaa ja tallenna> -toimintoa, voit valita tekstintunnistustoiminnon vain, kun <Word> on valittu kohdassa <OOXML> tai <OCR (priorisoitu tarkkuus)> on valittu kohdassa <PDF>.

OCR-tulokset eivät ole tyydyttäviä

Kun luot tekstihakua käyttäviä PDF/XPS/OOXML-tiedostoja, OCR (Optical Character Recognition) -tekstintunnistusta ei ehkä suoriteta oikein. Tämä voi johtua laitteen asetuksista, tai kielestä, alkuperäisen asiakirjan tekstityypistä tai muodosta joka ei sovi OCR-käsittelyyn.

Laitteen asetusten ja tuettujen kielten tarkistaminen

Voit parantaa OCR-käsittelyä muokkaamalla laitteen asetuksia jotka vaikuttavat alkuperäisten tekstin tunnistukseen, tai käyttämällä alkuperäisissä sopivia merkkityyppejä tai fontteja jotka laite tunnistaa.

Asetukset ja kielet OCR-tekstintunnistukseen

Kohde	Tiedot
Kieliasetukset tekstintunnistukseen	Kun määritetään kieli ja OCR-tekstintunnistus on valittu kohdassa <Tiedostomuoto>: Merkit tunnistetaan sen kielen perusteella, jonka valitset kullekin tiedostomuodolle. Kun kieltä ei ole määritetty ja OCR-tekstintunnistus on valittu kohdassa <Tiedostomuoto>: Merkit tunnistetaan sen kielen perusteella, jonka valitset kohdassa <Vaihda kieli/näppäimistö> (<Vaihda kieli/näppäimistö>).*1
Tunnistettavat aasialaiset kielet*2	Japani, kiina (yksinkertaistettu), kiina (perinteinen), korea Tunnistettavat merkkityypit ja fontit (aasialaiset kielet)
Tunnistettavat eurooppalaiset kielet ja kieliryhmät	Kielet: englanti, ranska, italia, saksa, espanja, hollanti, portugali, albania, katalaani, tanska, suomi, islanti, norja, ruotsi, kroatia, tšekki, unkari, puola, slovakki, viro, latvia, liettua, venäjä, kreikka, turkki, slovenia3, romania3, bulgaria3, heprea3 Kieliryhmät: länsieurooppalainen (ISO)4, keskieurooppalainen (ISO)5, baltialainen (ISO)*6 Tunnistettavat merkkityypit ja fontit (eurooppalaiset kielet)

*1 Listassa olevat kielet saattavat vaihtua. Jos valitset englanti, ranska, italia, saksa, espanja, thai tai vietnam, valittu kieli tunnistetaan länsieurooppalaiseksi (ISO).

*2 Aasialaisia kieliä ei voida tunnistaa, kun on valittu <OCR (priorisoitu tarkkuus)>.

*3 Tämä voidaan valita vain asetuksen <OCR (priorisoitu tarkkuus)> kanssa.

*4 Mukaan lukien englanti, ranska, italia, saksa, espanja, hollanti, portugali, albania, katalaani, tanska, suomi, islanti, norja ja ruotsi.

*5 Mukaanlukien kroatia, tsekki, unkari, puola ja slovakki.

*6 Mukaanlukien viro, latvia ja liettua.

Tunnistettavat merkkityypit ja fontit (aasialaiset kielet)

Kohde	Tiedot
Tunnistettavat merkkityypit	Japani: Aakkosnumeeriset merkit, Kana-merkit, Kanji-merkit (ensimmäisen tason JIS ja osa toisesta JIS-tasosta), symbolit Kiina (yksinkertaistettu): Aakkosnumeeriset merkit, kiinalaiset merkit, symbolit (GB2312-80) Kiina (perinteinen): Aakkosnumeeriset merkit, kiinalaiset merkit, symbolit (Big5) Korea: Aakkosnumeeriset merkit, kiinalaiset merkit, Hangul-merkit, symbolit (KSC5601)
Tunnistettavat fontit	Useita fontteja tuetaan. (Ming-cho-tyyppiä suositellaan.) Kursivoituja merkkejä ei tunnisteta.
Fontit, joita käytetään muunnettuihin merkkeihin (Vain kun Word on valittu tiedostomuodoksi)	Japani: Aasialaiset merkit: MS Mincho Eurooppalaiset merkit: Century Kiina (yksinkertaistettu): Aasialaiset merkit: SimSun Eurooppalaiset merkit: Calibri Kiina (perinteinen): Aasialaiset merkit: PMingLiU Eurooppalaiset merkit: Calibri

Tunnistettavat merkkityypit ja fontit (eurooppalaiset kielet)

Kohde	Tiedot
Tunnistettavat merkkityypit	Aakkosnumeeriset merkit, tunnistetun kielen erikoismerkit*1, Symbolit
Tunnistettavat fontit	Useita fontteja tuetaan. (Suositeltuja Times, Century ja Arial.)*2 Kursiivia ei tunnisteta.
Fontit, joita käytetään muunnettuihin merkkeihin (Vain kun Word on valittu tiedostomuodoksi)	Calibri Kursiivityyliä ei kopioida.

*1 Seuraavat kreikkalaiset merkit tunnistetaan. Myös kunkin kielen erikoismerkit tunnistetaan. Joidenkin kielten joitakin erikoismerkkejä ei voi tunnistaa.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ,υ, φ, χ, ψ, ω

*2 Kun <OCR (priorisoitu tarkkuus)> on valittu, Arial-, Times New Roman- ja Courier New -tyypin fontit tunnistetaan.

Alkuperäisten asiakirjojen muodon tunnistaminen

Käytä alkuperäisiä jotka sopivat OCR-tekstintunnistukseen parantaaksesi tunnistuksen tarkkuutta kun luot tekstihaku-PDF/XPS/OOXML -tiedostoja.

Kohde	Tiedot
Alkuperäinen muoto	Tulostetut asiakirjat, Word-asiakirjat (asiakirjat jotka sisältävät tekstiä, grafiikkaa tai taulukoita, mutta ei vinoja kirjaimia)
Tekstin muoto	Vaakasuoraa ja pystysuoraa kirjoitusta (myös sekä vaakasuoraa että pystysuoraa kirjoitusta sisältävät asiakirjat voidaan tunnistaa) Vain vaakasuuntainen kirjoitus voidaan tunnistaa eurooppalaisista kielistä ja koreasta. Yhdestä kolmeen saraketta sisältävät asiakirjat ilman monimutkaisia sarakeasetuksia.
Merkkikoko	8–40 pistettä
Taulukon muoto (Vain Word muoto)	Taulukot jotka täyttävät seuraavat ehdot: Taulukot on muodostettu neliöistä ja jaettu yhtenäisin viivoin Taulukoissa enintään 32 saraketta Taulukoissa enintään 32 riviä


Joitakin taulukoita jotka soveltuvat OCR-käsittelyyn ei ehkä käsitellä oikein. Suurta tarkkuutta ei ehkä saavuteta alkuperäisillä jotka sisältävät paljon tekstiä joka sivulla. Merkit voivat vaihtua toisiin merkkeihin tai puuttua, johtuen asiakirjan taustaväristä, merkkien muodosta ja koosta, tai vinoista merkeistä.* Kappaleita, rivinvaihtoja tai taulukoita ei ehkä kopioida.* Joitakin kuvien osia, valokuvia tai sinettikuvioita saatetaan tunnistaa merkeiksi ja korvata merkeillä.* * Kun Word on valittu tiedostomuodoksi.

Joitakin taulukoita jotka soveltuvat OCR-käsittelyyn ei ehkä käsitellä oikein.

Suurta tarkkuutta ei ehkä saavuteta alkuperäisillä jotka sisältävät paljon tekstiä joka sivulla.

Merkit voivat vaihtua toisiin merkkeihin tai puuttua, johtuen asiakirjan taustaväristä, merkkien muodosta ja koosta, tai vinoista merkeistä.*

Kappaleita, rivinvaihtoja tai taulukoita ei ehkä kopioida.*

Joitakin kuvien osia, valokuvia tai sinettikuvioita saatetaan tunnistaa merkeiksi ja korvata merkeillä.*

* Kun Word on valittu tiedostomuodoksi.