chatgod
Goto Top

OCR als Web-Anwendung Auf Linux Server

Hallo @all,

vorweg: Ich habe immer noch mit den Folgen eines Schlaganfalls zu kämpfen, also wenn ich Schreibfehler mache bitte seit nachsichtig.

Zu meiner Frage/ Problem

Wir haben einen Web-Anwendung bei der wir Text aus Bildern (JPG) auslesen.
Das machen wir derzeit über Azure. Dies dauert jedoch sehr lange und die OCR liest nur englisch aus.
Da wir aber in den Bildern nur deutsche Texte haben, werden Umlaute nicht angezeigt und Worte wie „Produkt“ als „product“ angezeigt.

Meine Frage: Welche Software könntet ihr mir empfehlen um die OCR auf einem eigenen Linux Server zu betreiben?

Oder kennt ihr ggf. einen externen OCR-Dienst der bezahlbar und schnell ist. Ich bin für jede Lösung oder auch Denkanstoss offen.

Viele Grüße

Content-Key: 638580

Url: https://administrator.de/contentid/638580

Printed on: April 18, 2024 at 19:04 o'clock

Member: beidermachtvongreyscull
beidermachtvongreyscull Jan 07, 2021 at 11:37:51 (UTC)
Goto Top
Mahlzeit!

Ich wünsche Dir ein gutes neues Jahr und weiterhin gute Besserung!

Ist die Web-Anwendung speziell nur für diesen einen Zweck da oder ist OCR eine "Unterfunktion"?
Ich frage deshalb, weil ich derzeit einen manuellen Prozess dahinter vermute.

Dies könnte mit TesseractOCR z.B. auch auf Dateisystemebene abgebildet werden. Es gibt auch andere Alternativen, die JPG nach PDF wandeln. PDF-Editoren wie z.B. PDF-XChange Editor beherrschen die Durchsuchbarmachung in der kostenlosen Version bereits.

Falls Du automatische Lösungen suchst, geht es wahrscheinlich nicht mehr gänzlich kostenlos, außer Du hast Programmier- und Scriptungkenntnisse. Dann wäre über CUPS und TesseractOCR durchaus etwas machbar.

Gruß
bdmvg
Member: NetzwerkDude
NetzwerkDude Jan 07, 2021 at 12:26:33 (UTC)
Goto Top
Hab vor paar Jahren den Tip hier gepostet wie man tesseract via bash automatisieren kann:
Quick n Dirty OCR für Scanner nachrüsten mit OpenSource mitteln
seinerzeit über einen share, aber genausogut können es verzeichnisse auf einem webserver sein
Mitglied: 137960
137960 Jan 07, 2021 at 12:41:33 (UTC)
Goto Top
Keine fertige Lösung, aber das hier zeigt wie man Dateien "OCRen" kann. Voraussetzung: Ubuntu

sudo apt-get -y remove ocrmypdf
sudo apt-get -y update
sudo apt-get -y install \
    ghostscript \
    icc-profiles-free \
    liblept5 \
    libxml2 \
    pngquant \
    python3-pip \
    tesseract-ocr \
    zlib1g \
    unpaper \
    parallel
sudo apt install -y tesseract-ocr-deu
sudo apt install ocrmypdf

Zum Umwandeln ruft man dann ocrmypdf auf, z.B.

ocrmypdf --force-ocr -l eng+deu --output-type pdf --deskew --clean --clean-final --optimize 0 --jbig2-lossy --pdfa-image-compression jpeg --fast-web-view 0 a.pdf b.pdf

Die Qualität des Textes ist relativ brauchbar. Nicht zu vergleich z.B. mit Bezahlsoftware wie Abby Finereader oder Acrobat, aber dafür ist alles erst einmal kostenlos.
Member: chatgod
chatgod Jan 07, 2021 at 12:58:47 (UTC)
Goto Top
Hallo und guten Tag beidermachtvongreyscull,

auch dir und (Entschuldigung ALLE anderen) ein gesundes und erfolgreiches 2021,

Nein es wird nur für diese eine Anwendung verwendet, es geht nur um das Text auslesen, aus den Bilder (die auch nie einen A4 größe haben).

Die Bilder werden mit einer Mobilen-APP auf die Webseite geladen, dort werden sie dann aufgerufen und zugeschnitten, nach dem zuschliff, sollen die Bilder über die OCR gehen (es wird weggeschnitten was nicht gebraucht wird).

Die Azure OCR braucht halt bis 20 Sekunden, und ist halt nur auf EN.


Gruß

P.S. ich danke für jeden Hinweis bzw. Tipp .. danke. .....