c-sharp
Goto Top

Suche Programmierer für ein Skript gegen Bezahlung

Hallo,
ich suche auf diesem Weg ein Programmierer, der mir ein Skript schreiben kann, der Folgendes tun soll


Ich habe eine 2 Seitige Pdf Datei, die Bestimmten Inhalt hat. Aus dieser Pdf benötige ich BESTIMMTE Daten.

Der Aufbau des PDF ist nicht in einer XML Struktur sortiert. Um die Daten aus dem PDF weiter verarbeiten zukönnen mussen die daten aus dem Pdf in eine strukturierte XML Datei umgewandet werden.

Die umgewandelte XML Datei wird sodann für ein Wordprogramm benötigt um mit den extrahierten Daten Textbausteine generieren zu können. Momentan erledigen wir dies von Hand.

Die Pdf datei ist wie gesagt nicht in einer XML struktur. Das bedeutet bei erstellung der Pdf können "BESTIMMTE" Daten vorhanden sein oder "BESTIMMTE" daten fehlen. Das hängt von der jeweils erstellten PDF datei ab.

Die PDF wird durch ein Programm generiert.

Beispiel bestimmter daten in der PDF:

Blumen: Rosen

Herkunft: Blumenland AG
Rosenstraße 23
75427 Göttingen

Farbe: Lila

Lagernr: 5642

Diese Daten diehen nur zur Vorstellung !!!!!


Beispiel bestimmter daten in eine PDF die fehlen

Blumen: Rosen


Farbe: Lila

Lagernr: 564


Über eine Umsetzung würde ich mich freuen. Selbstverständlich gegen Bezahlung.

Bei interesse könnt ihr mich gerne anschreiben eine Telnummer hier zu hinterlgen wäre glaube ich nicht Hilfreich.

PS: Danke an den Site Admin der mir diesen Tipp gab mal direkt eine Frage ins Board zustellen.


LG

C-Sharp

Content-Key: 565281

Url: https://administrator.de/contentid/565281

Printed on: April 20, 2024 at 12:04 o'clock

Mitglied: 135345
Solution 135345 Apr 16, 2020 at 22:18:47 (UTC)
Goto Top
Moin,

ist die Art, worin es umgesetzt wird, egal?

Grüße
Member: C-Sharp
C-Sharp Apr 16, 2020 at 23:02:26 (UTC)
Goto Top
Hallo, die Daten müssen in XML Format
Vorliegen.

Ideale wäre

Ein Ordner erstellen
In diesen Ordner die pdf Datei und das Script einfügen und Script starten.

Das Skript erstellt Dan ein XML Dokument mit strukturierten Daten für die Weiterverarbeitung.

Lg
C-Sharp
Member: C-Sharp
C-Sharp Apr 16, 2020 at 23:09:58 (UTC)
Goto Top
Die Art der Umsetzung ist egal.
Member: Mukbert
Mukbert Apr 17, 2020 updated at 18:46:20 (UTC)
Goto Top
Hallo,

Ich bin Informatik Student und würde mich mit einem Python Skript daran versuchen face-smile

Liebe Grüße
Dominik
Member: Ralfie01
Ralfie01 Apr 17, 2020 at 21:02:39 (UTC)
Goto Top
Hallo,

mein Weg wäre eine C#-Anwendung zur Verarbeitung der PDFs in einem Verzeichnis.
Der extrahierte Text (Textlayer oder OCR) würde per RegEx geparst werden. Der RegEx ist in einer Konfiguration hinterlegt wie RegEx-Syntax¶Name in der XML.

Der Aufwand ist auch überschaubar.

Bei Interesse einfach kurz melden mit Kontaktdaten.

Umsetzung kann kurzfristig erfolgen.

Viele Grüße
Ralf
Member: Perlmonk
Perlmonk Apr 18, 2020 at 06:24:28 (UTC)
Goto Top
Hallo,
Ich würde ein Script in Perl schreiben das via OCR die Daten aus dem PDF parsed und in eine XML Struktur schreibt.
Umsetzungdauer: 2Std.
Umgebung : Linux/WIN/OSX
Das ganz wäre auch erweiterbar das die Daten Bspw in JSON geschrieben werden können.
Gruß Perlmonk
Ps: natürlich ohne Bezahlung ;)
Member: Perlmonk
Perlmonk Apr 18, 2020 at 06:39:15 (UTC)
Goto Top
Handelt es sich um eine valide PDF Datei oder ist es auch möglich das dass PDF eine Zusammenstellung aus jpg's enthält in denen zu parsende Daten enthalten sind?
Member: Geowall
Geowall Apr 18, 2020 at 08:39:31 (UTC)
Goto Top
Hallo, würde alles in Word mit VBA machen, die Bausteine wären in einer DB gespeichert. Habe ähnliche Anwendungen bereits hergestellt, bei Interesse kann so‘ne Anwendung vorstellen.
Grüße
GW
Member: s-frei
s-frei Apr 18, 2020 at 09:44:42 (UTC)
Goto Top
Hi,

Ich könnte das ganze mit Java umsetzen.
Stelle mir vor einen Filewatcher auf ein Verzeichnis loszulassen und immer wenn ein PDF dort hinein gelegt wird, wird ein Unwandlungsvorgang angestoßen.
Vergütung muss nicht sein.

mfg,
Samuel
Member: mmyelf
mmyelf Apr 18, 2020 at 11:49:26 (UTC)
Goto Top
Ich würde das mit einem einfachen Rust-Programm machen.

Wie genu sollen die Daten im XML-Dokument aufgebaut sein? Vielleicht so?:

<?xml version="1.0" encoding="1.0" ?>
<Informationen>
<Blumen>Rosen</Blumen>
<Herkunft>Blumenland AG
Rosenstraße 23
75427 Göttingen</Herkunft>
<Farbe>Lila</Farbe>
<Lagernr>5642</Lagernr>
</Informationen>

Wenn ja wie das Root-Element (was im Beispiel "Informationen" heißt) heißen, oder ist das egal?
Member: Alchimedes
Alchimedes Jun 24, 2020 updated at 18:22:27 (UTC)
Goto Top
ist die Art, worin es umgesetzt wird, egal?

Was ist denn jetzt da die Loesung ?