Wenn OCR (Durchsuchbarer Text) mangelhaft arbeitet

Dieser Abschnitt beschreibt, wie die Funktion OCR (Durchsuchbarer Text) arbeitet, wenn durchsuchbare PDF/XPS/OOXML-Dateien erstellt werden, und über das geeignete Dateiformat für die Funktion OCR (Durchsuchbarer Text).
Beachten Sie folgende Anweisungen, wenn Sie nicht das richtige Ergebnis für OCR (optische Zeichenerkennung) erhalten können.

Funktion OCR (Durchsuchbarer Text) zum Erstellen durchsuchbarer PDF/XPS/OOXML-Dateien

Bei Erstellen durchsuchbarer PDF/XPS/OOXML-Dateien ist die Leistung von OCR unterschiedlich, je nach dem gewählten Dateiformat. Nähere Informationen finden Sie in der Tabelle unten.
WICHTIG
Auch wenn Sie OCR entsprechend der in den Originalen verwendeten Sprache ausführen, kann das richtige Ergebnis möglicherweise je nach dem Text und Dateiformat der Originale nicht erzielt werden.
Punkt
Dateiformat
PDF/XPS/PowerPoint
Word
Erkennungssprache
Zeichen, die als eine der folgenden Sprachen oder Sprachgruppen entsprechend einer in [Sprache/Tastatur schalten] in [Präferenzen] gewählten Sprache (Einstellungen/Speicherung) erkannt werden*1 *2
Berühren Sie [Ändern], um eine in den Originalen verwendete Sprache unter den folgenden Sprachen oder Sprachgruppen zu wählen. Zeichen werden entsprechend der gewählten Sprache erkannt.
Asiatische Sprachen
Text in den folgenden Sprachen wird erkannt:
Japanisch, Chinesisch (vereinfacht), Chinesisch (traditionell), Koreanisch
Europäische Sprachen
Text in den folgenden Sprachen oder Sprachgruppen wird erkannt
Sprachen
Englisch, Französisch, Italienisch, Deutsch, Spanisch, Niederländisch, Portugiesisch, Albanisch, Katalanisch, Dänisch, Finnisch, Isländisch, Norwegisch, Schwedisch, Kroatisch, Tschechisch, Ungarisch, Polnisch, Slowakisch, Estnisch, Lettisch, Litauisch, Russisch, Griechisch, Türkisch
Sprachgruppen
Westeuropäisch (ISO), Zentraleuropäisch (ISO), Baltisch (ISO) *3
Zeichenerkennung für asiatische Sprachen
Erkennungszeichentyp
Japanisch: Alphanumerische Zeichen, Kana-Zeichen, Kanji-Zeichen (JIS erster Level, JIS zweiter Level (teilweise)), Symbole
Chinesisch (vereinfacht): Alphanumerische Zeichen, chinesische Zeichen, Symbole (GB2312-80)
Chinesisch (traditionell): Alphanumerische Zeichen, chinesische Zeichen, Symbole (Big5)
Koreanisch: Alphanumerische Zeichen, Kanji-Zeichen, koreanische (Hangul) Zeichen, Symbole (KSC5601)
Erkennungsfont
Multi-Font unterstützt (Typ Ming-cho wird empfohlen)
Kursiv-Typ kann nicht erkannt werden
Konvertierter Font
-
Wenn Japanisch gewählt ist:
Asiatischer Text: MS Mincho
Europäischer Text: Century
Wenn Chinesisch (vereinfacht) gewählt ist:
Asiatischer Text: SimSun
Europäischer Text: Calibri
Wenn Chinesisch (traditionell) gewählt ist:
Asiatischer Text: PMingLiU
Europäischer Text: Calibri
Zeichenerkennung für europäische Sprachen
Erkennungszeichentyp
Alphanumerische Zeichen, Sonderzeichen für die erkannte Sprache*4, Symbole
Erkennungsfont
Multi-Font unterstützt (Times, Century und Arial werden empfohlen)
Kursiv-Typ kann erkannt werden
Konvertierter Font
-
Angezeigt in Calibri
Kursiv-Typ kann nicht konvertiert werden
*1 Die angezeigte Sprachenliste in [Sprache/Tastatur schalten] in [Präferenzen] (Einstellungen/Speicherung) kann unterschiedlich sein.
*2 Wenn Sie Englisch, Französisch, Italienisch, Deutsch, Spanisch, Thai oder Vietnamesisch in [Sprache/Tastatur schalten] in [Präferenzen] (Einstellungen/Speicherung) wählen, wird die Sprache als Westeuropäisch (ISO) erkannt.
*3 Jede Sprachengruppe besteht aus den folgenden Sprachen. Wenn Sie eine Sprachengruppe wählen, wird in den Sprachen der Sprachengruppe geschriebener Text erkannt.
Westeuropäisch (ISO):
Englisch, Französisch, Italienisch, Deutsch, Spanisch, Niederländisch, Portugiesisch, Albanisch, Katalanisch, Dänisch, Finnisch, Isländisch, Norwegisch, Schwedisch
Zentraleuropäisch (ISO):
Kroatisch, Tschechisch, Ungarisch, Polnisch, Slowakisch
Baltisch (ISO):
Estnisch, Lettisch, Litauisch
*4 Wenn Sie Griechisch wählen, können die folgenden Sonderzeichen erkannt werden. Wenn Sie andere Sprachen wählen, können Sonderzeichen für jede Sprache erkannt werden. Manche Sonderzeichen können je nach den betreffenden Sprachen nicht erkannt werden.
Α, Β, Γ, Δ, Ε, Ζ, Η, Θ, Ι, Κ, Λ, Μ, Ν, Ξ, Ο, Π, Ρ, Σ, Τ, Υ, Φ, Χ, Ψ, Ω, α, β, γ, δ, ε, ζ, η, θ, ι, κ, λ, μ, ν, ξ, ο, π, ρ, σ, τ, υ, φ, χ, ψ, ω

Dateiformat zum Erstellen durchsuchbarer PDF/XPS/OOXML-Dateien

Durch Verwendung eines geeigneten Dateiformats für OCR können Sie die Genauigkeit des OCR-Ergebnisses verbessern.
Wenn Sie kein geeignetes OCR-Ergebnis erzielen, bestätigen Sie, dass das Dateiformat des gescannten Originals für OCR geeignet ist.
WICHTIG
Wenn Sie Originale verwenden, die eine sehr große Textmenge pro Seite enthalten, kann OCR möglicherweise nicht richtig arbeiten.
Wenn Sie Word-Format wählen, kann OCR möglicherweise nicht richtig arbeiten, auch wenn Sie Originale im empfohlenen Dateiformat verwenden.
Je nach Hintergrundfarbe, Zeichenstil, Zeichengröße und Zeichenneigung können einzelne Zeichen falsch interpretiert werden oder im OCR-Ergebnis fehlen.
Abschnitte, Zeilenumsprünge und Tabellen im Original werden möglicherweise nicht erkannt.
Ein Teil eines Bildes, wie Grafiken, Fotos oder Namensstempelaufdrucke, kann erkannt und durch Text ersetzt werden.
Punkt
Details
Format des Originals
Gedruckte Dokumente, Textdokumente (ein Dokument, das aus Text, Zahlen, Bildern und Tabellen besteht und keine Zeichenneigung aufweist)
Format des Textes
Horizontale Schrift, vertikale Schrift
Dokumente, die sowohl horizontale als auch vertikale Schrift enthalten, können erkannt werden.
Für europäische Sprachen und Koreanisch kann nur horizontale Schrift erkannt werden.
Dokumente ohne komplexe Spalten
Zeichengröße
8 bis 40 Punkt
Format der Tabelle
(nur für Word-Dokumente)
Tabellen, die den folgenden Bedingungen entsprechen
Rechteckige Tabellen mit durchgehenden Linien
Die Anzahl der Zeilen beträgt 32 oder weniger
Die Anzahl der Spalten beträgt 32 oder weniger
4623-0UW