Skannaaminen OCR-toiminnolla

Tällä toiminnolla voit suorittaa OCR:n (optical character recognition) irrottaaksesi skannatusta kuvasta datan, joka voidaan tunnistaa tekstiksi skannatusta kuvasta ja luoda haettavan PDF/XPS/OOXML (pptx/docx) -tiedoston. Voit myös valita <Pakattu>, jos valitset PDF- tai XPS-tiedostomuodon.

Skannaus OCR-toiminnolla

1
Aseta alkuperäinen. Alkuperäisten asettaminen
2
Valitse <Skannaa ja lähetä>. <Päävalikko>-näyttö
3
Määritä vastaanottaja skannauksen perustoimintonäytössä. Skannauksen perustoimintonäyttö
4
Määritä skannausasetukset tarpeen mukaan. Alkuperäisten skannauksen perustoiminnot
5
Valitse tiedostomuoto.
Jos haluat erottaa useita kuvia ja lähettää ne erillisinä tiedostoina, joissa on vain yksi sivu, valitse <Jaa sivuihin>  kirjoita jaettavien sivujen määrä  valitse <OK>. Jos haluat skannata kuvat yhtenä tiedostona, valitse <Jaa sivuihin>  <Peruuta asetukset>.
PDF:n valitseminen
XPS:n valitseminen
Word-muodon valitseminen OOXML:lle
PowerPoint-muodon valitseminen OOXML:lle
6
Valitse <OK>.
Pitkiä alkuperäisiä (vähintään 432 mm) ei voi käyttää <OCR (Tekstihaku)> -toiminnon kanssa.
Jos valitset tiedostomuodoksi <PDF (OCR)>, <XPS (OCR)> tai <OOXML (OCR)> ja <Älyskannaus>-asetuksena on <Kyllä> kohdassa <OCR (Text Searchable) Settings>/<OCR (priorisoitu nopeus)>, alkuperäisen suunta tunnistetaan ja asiakirjaa käännetään tarvittaessa automaattisesti ennen sen lähettämistä. <OCR (Tekstihaku) -asetukset>
Jos valitset <OCR (Tekstihaku)>, voit lähettää vain zoomaussuhteella <1:1> tai <Auto>.
Jos valitset tiedostomuodoksi <PDF> tai <XPS>, voit valita asetukset <Pakattu> ja <OCR (Tekstihaku)> samanaikaisesti. Tässä tapauksessa <PDF (Pakattu)> tai <XPS (pakattu)> näkyy tiedostomuotona skannauksen ja lähetyksen perustoimintonäytössä.
Jos valitset <Word> kohdassa <OOXML>, voit määrittää skannatut taustakuvat poistettavaksi. Voit luoda Word-tiedostoja, joiden muokkaus on helppoa ilman tarpeettomia taustakuvia. <Sisällytä taustakuvat Word-tiedostoon>
Jos käytät <Skannaa ja tallenna> -toimintoa, voit valita tekstintunnistustoiminnon vain, kun <Word> on valittu kohdassa <OOXML> tai <OCR (priorisoitu tarkkuus)> on valittu kohdassa <PDF>.

OCR-tulokset eivät ole tyydyttäviä

Kun luot tekstihakua käyttäviä PDF/XPS/OOXML-tiedostoja, OCR (Optical Character Recognition) -tekstintunnistusta ei ehkä suoriteta oikein. Tämä voi johtua laitteen asetuksista, tai kielestä, alkuperäisen asiakirjan tekstityypistä tai muodosta joka ei sovi OCR-käsittelyyn.

Laitteen asetusten ja tuettujen kielten tarkistaminen

Voit parantaa OCR-käsittelyä muokkaamalla laitteen asetuksia jotka vaikuttavat alkuperäisten tekstin tunnistukseen, tai käyttämällä alkuperäisissä sopivia merkkityyppejä tai fontteja jotka laite tunnistaa.

Asetukset ja kielet OCR-tekstintunnistukseen

Kohde
Tiedot
Kieliasetukset tekstintunnistukseen
Kun määritetään kieli ja OCR-tekstintunnistus on valittu kohdassa <Tiedostomuoto>:
Merkit tunnistetaan sen kielen perusteella, jonka valitset kullekin tiedostomuodolle.
Kun kieltä ei ole määritetty ja OCR-tekstintunnistus on valittu kohdassa <Tiedostomuoto>:
Merkit tunnistetaan sen kielen perusteella, jonka valitset kohdassa <Vaihda kieli/näppäimistö> (<Vaihda kieli/näppäimistö>).*1
Tunnistettavat aasialaiset kielet*2
Japani, kiina (yksinkertaistettu), kiina (perinteinen), korea
Tunnistettavat merkkityypit ja fontit (aasialaiset kielet)
Tunnistettavat eurooppalaiset kielet ja kieliryhmät
Kielet:
englanti, ranska, italia, saksa, espanja, hollanti, portugali, albania, katalaani, tanska, suomi, islanti, norja, ruotsi, kroatia, tšekki, unkari, puola, slovakki, viro, latvia, liettua, venäjä, kreikka, turkki, slovenia*3, romania*3, bulgaria*3, heprea*3
Kieliryhmät:
länsieurooppalainen (ISO)*4, keskieurooppalainen (ISO)*5, baltialainen (ISO)*6
Tunnistettavat merkkityypit ja fontit (eurooppalaiset kielet)
*1 Listassa olevat kielet saattavat vaihtua. Jos valitset englanti, ranska, italia, saksa, espanja, thai tai vietnam, valittu kieli tunnistetaan länsieurooppalaiseksi (ISO).
*2 Aasialaisia kieliä ei voida tunnistaa, kun on valittu <OCR (priorisoitu tarkkuus)>.
*3 Tämä voidaan valita vain asetuksen <OCR (priorisoitu tarkkuus)> kanssa.
*4 Mukaan lukien englanti, ranska, italia, saksa, espanja, hollanti, portugali, albania, katalaani, tanska, suomi, islanti, norja ja ruotsi.
*5 Mukaanlukien kroatia, tsekki, unkari, puola ja slovakki.
*6 Mukaanlukien viro, latvia ja liettua.

Tunnistettavat merkkityypit ja fontit (aasialaiset kielet)

Kohde
Tiedot
Tunnistettavat merkkityypit
Japani:
Aakkosnumeeriset merkit, Kana-merkit, Kanji-merkit (ensimmäisen tason JIS ja osa toisesta JIS-tasosta), symbolit
Kiina (yksinkertaistettu):
Aakkosnumeeriset merkit, kiinalaiset merkit, symbolit (GB2312-80)
Kiina (perinteinen):
Aakkosnumeeriset merkit, kiinalaiset merkit, symbolit (Big5)
Korea:
Aakkosnumeeriset merkit, kiinalaiset merkit, Hangul-merkit, symbolit (KSC5601)
Tunnistettavat fontit
Useita fontteja tuetaan. (Ming-cho-tyyppiä suositellaan.)
Kursivoituja merkkejä ei tunnisteta.
Fontit, joita käytetään muunnettuihin merkkeihin (Vain kun Word on valittu tiedostomuodoksi)
Japani:
Aasialaiset merkit: MS Mincho
Eurooppalaiset merkit: Century
Kiina (yksinkertaistettu):
Aasialaiset merkit: SimSun
Eurooppalaiset merkit: Calibri
Kiina (perinteinen):
Aasialaiset merkit: PMingLiU
Eurooppalaiset merkit: Calibri

Tunnistettavat merkkityypit ja fontit (eurooppalaiset kielet)

Kohde
Tiedot
Tunnistettavat merkkityypit
Aakkosnumeeriset merkit, tunnistetun kielen erikoismerkit*1, Symbolit
Tunnistettavat fontit
Useita fontteja tuetaan. (Suositeltuja Times, Century ja Arial.)*2
Kursiivia ei tunnisteta.
Fontit, joita käytetään muunnettuihin merkkeihin (Vain kun Word on valittu tiedostomuodoksi)
Calibri
Kursiivityyliä ei kopioida.
*1 Seuraavat kreikkalaiset merkit tunnistetaan. Myös kunkin kielen erikoismerkit tunnistetaan. Joidenkin kielten joitakin erikoismerkkejä ei voi tunnistaa.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ,υ, φ, χ, ψ, ω
*2 Kun <OCR (priorisoitu tarkkuus)> on valittu, Arial-, Times New Roman- ja Courier New -tyypin fontit tunnistetaan.

Alkuperäisten asiakirjojen muodon tunnistaminen

Käytä alkuperäisiä jotka sopivat OCR-tekstintunnistukseen parantaaksesi tunnistuksen tarkkuutta kun luot tekstihaku-PDF/XPS/OOXML -tiedostoja.
Kohde
Tiedot
Alkuperäinen muoto
Tulostetut asiakirjat, Word-asiakirjat (asiakirjat jotka sisältävät tekstiä, grafiikkaa tai taulukoita, mutta ei vinoja kirjaimia)
Tekstin muoto
Vaakasuoraa ja pystysuoraa kirjoitusta (myös sekä vaakasuoraa että pystysuoraa kirjoitusta sisältävät asiakirjat voidaan tunnistaa)
Vain vaakasuuntainen kirjoitus voidaan tunnistaa eurooppalaisista kielistä ja koreasta.
Yhdestä kolmeen saraketta sisältävät asiakirjat ilman monimutkaisia sarakeasetuksia.
Merkkikoko
8–40 pistettä
Taulukon muoto (Vain Word muoto)
Taulukot jotka täyttävät seuraavat ehdot:
Taulukot on muodostettu neliöistä ja jaettu yhtenäisin viivoin
Taulukoissa enintään 32 saraketta
Taulukoissa enintään 32 riviä
Joitakin taulukoita jotka soveltuvat OCR-käsittelyyn ei ehkä käsitellä oikein.
Suurta tarkkuutta ei ehkä saavuteta alkuperäisillä jotka sisältävät paljon tekstiä joka sivulla.
Merkit voivat vaihtua toisiin merkkeihin tai puuttua, johtuen asiakirjan taustaväristä, merkkien muodosta ja koosta, tai vinoista merkeistä.*
Kappaleita, rivinvaihtoja tai taulukoita ei ehkä kopioida.*
Joitakin kuvien osia, valokuvia tai sinettikuvioita saatetaan tunnistaa merkeiksi ja korvata merkeillä.*
* Kun Word on valittu tiedostomuodoksi.
8299-0C4