Web-Client
Verbesserung unserer Texterkennung
Wir haben die Texterkennung verbessert, sodass Dokumente über die CenterDevice-Suche signifikant besser gefunden werden.
Bisher war es so
Beim Upload in CenterDevice wird überprüft, ob ein Dokument durchsuchbaren Text enthält. Dieser wird extrahiert und als Information dem Dokument zugeordnet / indexiert. Wenn kein durchsuchbarer Text vorliegt, wird die OCR ausgeführt.
Das heißt, in der Regel wird die OCR nicht ausgeführt, wenn das Dokument bereits durchsuchbaren Text enthält.
Problem
Bei Dokumenten, die sowohl durchsuchbaren Text als auch nicht durchsuchbare Bereiche enthalten (z.B. Bilddateien), wird in der Regel nur der durchsuchbare Text indexiert.
Aber oftmals befinden sich wichtige Informationen in dem nicht durchsuchbaren Bereich, wie zum Beispiel Firmenname, Kunden-Nr., Anschrift, USt-IdNr, Kontoverbindung, etc.
Wenn diese Informationen nicht indexiert werden, können die Dokumente über eine CenterDevice-Suche nach Textinhalten, nicht gefunden werden.
Das ist neu
Das Dokument wird in viele kleine Bereiche aufgeteilt. Jeder Bereich wird separat nach durchsuchbarem Text überprüft. Wird keiner gefunden, aktiviert sich unsere OCR für diesen Bereich.
So werden die Ergebnisse aus beiden Verfahren (der Textextraktion und der OCR) indexiert und das Dokument kann über die CenterDevice-Suche signifikant besser gefunden werden.
Kommentare
0 Kommentare
Bitte melden Sie sich an, um einen Kommentar zu hinterlassen.