Tekstiä ei ole OCR-käsitelty oikein

Tekstille ei ehkä suoriteta OCR-käsittelyä oikein tekstihakutiedostoa luotaessa. Tarkista tässä tapauksessa, ovatko OCR-käsittelyn kieliasetukset ja käytettävä alkuperäinen asiakirja asianmukaisia.
Voit muuttaa kieliasetusta alkuperäisen mukaan ja parantaa käsittelyn tarkkuutta käyttämällä alkuperäistä, jonka merkkityypin ja kirjasimen laite tunnistaa, ja käyttämällä OCR-käsittelyyn soveltuvaa alkuperäistä.
TÄRKEÄÄ
Kun OCR-käsittelyä ei suoriteta oikein, vaikka kieliasetus on määritetty oikein ja alkuperäinen asiakirja on sopiva
Käsittelytarkkuutta ei ehkä voida parantaa alkuperäisissä asiakirjoissa, joissa on paljon tekstiä sivua kohti.
Huomioi seuraava luotaessa Word-muotoista OOXML-tiedostoa:
Teksti voidaan korvata tahattomilla merkeillä tai merkkejä saattaa puuttua taustaväristä, kirjasimesta, kirjasimen koosta, kursiivista ja muista tekijöistä riippuen.
Kappaleita, rivinvaihtoja tai taulukoita ei ehkä kopioida.
Jotkin kuvat, kuten kaaviot, valokuvat ja sinetit, saatetaan tunnistaa tekstiksi ja korvata tekstillä.

OCR-käsittelyn asetus- ja kielistandardi

Tavalliset kieliasetukset merkintunnistukseen
OCR-käsittelyä määritettäessä valitut kielet ovat merkintunnistuksen perusta. Tekstihakukelpoisen tiedoston luominen (OCR-käsittely)
Tunnistettavat aasialaiset kielet
japani, yksinkertainen kiina, perinteinen kiina, korea
* Katso merkkityypit ja fontit seuraavasta:
Tunnistettavat eurooppalaiset kielet ja kieliryhmät
Kielet
englanti, ranska, italia, saksa, espanja, hollanti, portugali, albania, katalaani, tanska, suomi, islanti, norja, ruotsi, kroatia, tšekki, unkari, puola, slovakki, viro, latvia, liettua, venäjä, kreikka, turkki, slovenia*1, romania*1, bulgaria*1, heprea*1
Kieliryhmät
länsieurooppalaiset (ISO)*2, keskieurooppalaiset (ISO)*3, balttilaiset (ISO)*4
* Katso merkkityypit ja fontit seuraavasta:
*1Tämä voidaan valita vain kohteen [OCR (priorisoitu tarkkuus)] kanssa.
*2Englanti, ranska, italia, saksa, espanja, hollanti, portugali, albania, katalaani, tanska, suomi, islanti, norja ja ruotsi.
*3Kroatia, tšekki, unkari, puola ja slovakki.
*4Englanti, viro, latvia ja liettua.

Tunnistettavat merkkityypit ja fontit (aasialaiset kielet)

Tunnistettavat merkkityypit
Japanese
Aakkoset, numerot, kanji*1, symbolit, hiragana ja katakana
Kiina (yksinkertaistettu)
GB2312-80 (aakkoset, numerot, kanji ja symbolit)
Kiina (perinteinen)
Big5 (aakkoset, numerot, kanji ja symbolit)
Korea
KSC5601 (aakkoset, numerot, kanji, symbolit ja hangul)
Tunnistettavat fontit
Usean fontin tuki (suositus: Mincho)
* Kursiivia ei tunnisteta.
Tunnistettavat fonttikoot
8 pt – 48 pt.
Tekstintunnistusprosessin päätteeksi käytetyt fontit*2
Japanese
Aasialaiset merkit: MS Mincho
Eurooppalaiset merkit: Century
Kiina (yksinkertaistettu)
Aasialaiset merkit: SimSun
Eurooppalaiset merkit: Calibri
Kiina (perinteinen)
Aasialaiset merkit: PMingLiU
Eurooppalaiset merkit: Calibri
Korea
Aasialaiset merkit: Malgun Gothic
Eurooppalaiset merkit: Calibri
*1Kaikki JIS 1 -standardikanjit ja jotkut JIS 2 -standardikanjit
*2Vain luotaessa Word-muotoista OOXML-tiedostoa

Tunnistettavat merkkityypit ja fontit (eurooppalaiset kielet)

Tunnistettavat merkkityypit
Aakkoset, tunnistuskielen ainutlaatuiset merkit*1, numerot, symbolit
Tunnistettavat fontit
Usean fontin tuki (suositus: Times, Century, Arial)*2
* Kursiivi tunnistetaan.
Tunnistettavat fonttikoot
6 pt – 72 pt.
Tekstintunnistusprosessin päätteeksi käytetyt fontit*3
Calibri
* Kursivointia ei voi kopioida.
*1Kielestä riippuen joitain yksilöllisiä merkkejä ei ehkä tunnisteta.
*2Arial-, Times New Roman- ja Courier New -fontit voidaan tunnistaa [OCR (priorisoitu tarkkuus)]:sta.
*3Vain luotaessa Word-muotoista OOXML-tiedostoa

OCR-käsittelyyn sopivat alkuperäiset

Voit parantaa OCR-käsittelyn tarkkuutta käyttämällä OCR-käsittelyyn sopivaa alkuperäiskappaletta.
Alkuperäisen tiedostomuoto
Painetut asiakirjat ja tekstinkäsittelyasiakirjat
Alkuperäiset, jotka koostuvat tekstistä, kaavioista, valokuvista ja / tai taulukoista, eivätkä ole vinoja
Tekstin muoto
Vaakasuoraa tai pystysuoraa kirjoitusta (myös sekä vaakasuoraa että pystysuoraa kirjoitusta sisältävät asiakirjat voidaan tunnistaa)*1
Asiakirjat, joissa on yhdestä kolmeen saraketta, ilman monimutkaisia kuvioita
Fonttikoko
8 pt – 40 pt.
Taulukon muoto*2
Taulukot jotka täyttävät seuraavat ehdot:
Suorakaiteen muotoinen muoto, joka koostuu yhtenäisistä reunusviivoista
32 saraketta tai vähemmän
32 riviä tai vähemmän
*1Vain vaakasuuntainen kirjoitus voidaan tunnistaa eurooppalaisista kielistä ja koreasta.
*2Vain luotaessa Word-muotoista OOXML-tiedostoa
C49S-083