fautec56
Goto Top

Text in PDF lesen und nutzen

Hallo zusammen,

meine erste Frage in diesem Forum betrifft das umbenennen von PDF-Dateien, die mit einem OCR-Scan erstelle wurden.
Also eine Vorstufe eines DMS. Ob ein DMS eingeführt wird, steht noch in den Sternen.

Was man aber will:

Eledigte Vorgänge einscannen und in bestimmte Ordner ablegen.

Um aber dem User die Arbeit zu vereinfache und Schreibfehler zu vermeiden, möchte man die Benennung der PDF-Datei automatisieren.

Heißt:
Man müsste die PDF-Datei lesen und wenn z.B die Zeichenfolge " 2016- " gefunden wird, die nächsten 6 Zeichen dazu nehmen.

Ergebnis:
z.B. 2016-568956 (Das ist eine Auftragsnummer)
Die PDF-Datei soll dann damit umbenannt werden.

Ergebnis:
2016-568956.pdf
Danach soll die Datei dann in ein bestimmtes Verzeichnis verschoben werden. Z.B. o:\Archiv\Auftraege\2016\

Man meint dafür gäbe es ein Tool. Mir aber unbekannt!

Kennt irgendwer ein Tool das so etwas kann? Oder wie könnte man das als VBA-Script laufen lassen?
Wer könnte helfen.

Für eure Hilfe wäre ich da sehr dankbar.


Reinhard

Content-Key: 292738

Url: https://administrator.de/contentid/292738

Printed on: April 19, 2024 at 10:04 o'clock

Mitglied: 122990
122990 Jan 11, 2016 at 09:26:49 (UTC)
Goto Top
Moin,
mal die Suche nutzen und das hier finden:
PDF nach deren Inhalt umbenennen, den Namen immer auslesen

Gruß grexit
Member: aqui
aqui Jan 11, 2016 at 09:38:59 (UTC)
Goto Top
Nützt ihm nur nix, denn er will ja aktiv während des Scann Vorgangs aus dem Dokument Daten lesen die dann Teil des Dateinamens werden sollen.
Diese Herausforderung ist dann schon eine andere als die Script gesteuerte im o.a. URL.
Mitglied: 122990
122990 Jan 11, 2016 updated at 09:53:41 (UTC)
Goto Top
Nö, er will ja nur die Datei umbenennen, und das kann man ja problemlos hinterher erledigen...
Text per PDF2Text auselesen per Regex den Text filtern, Datei umbenennen fertig.

Habe ich hier in ähnlicher Weise schon gezeigt, nur ging es da ums Splitten nicht ums umbenennen nach Begriff
PDF splitten nach Ausdruck
Member: aqui
Solution aqui Jan 11, 2016, updated at Jan 17, 2016 at 12:48:05 (UTC)
Goto Top
Mmmmhhh... Die Äußerung des TO
die PDF-Datei lesen und wenn z.B die Zeichenfolge " 2016- " gefunden wird, die nächsten 6 Zeichen dazu nehmen.
könnte man auch anders interpretieren das das Lesen beim scannen passieren soll...ist tatsächlich etwas widersprüchlich und sollte er mal aufklären !
Andernfalls hast du natürlich Recht...keine Frage.
Member: fautec56
fautec56 Jan 17, 2016 at 13:01:16 (UTC)
Goto Top
Hallo zusammen,

erst mal Danke für eure Beiträge.

Bezüglich der Frage wann das geschehen soll ist das einfach beantwortet:

" Nach dem Scannen".

Ich denke in 10 Tagen bekomme ich den Scanner, mit dem wir die Dokumente einscannen.

Im Test habe ich schon mal eine durch PDF24 erstelle PDF-Datei als TXT umbenannt. Innerhalb der Umbenannten Datei konnte ich meinen Text 2016- finden.
Wenn das in der durch den Scanner eingescannten PDF-Datei auch so eindeutig zu finden ist, wäre das Kopieren und umbenennen zur txt, das Verschieben der PDF-Datei und löschen der TXT per Batchskript klar.

Aber wie lese ich die Zeichenfolge 2016- + die nächsten 5 Buchstaben aus, Variable füllen, um dann damit die PDF-Datei umbenenne.
Da fehlt mir einfach das Wissen um das finden, auslesen und kopieren von Textteilen in eine Variable.

Die bisher gefunden Beispiele gehen da einfach zu weit und ich bekomme Sie nicht für meinen Fall umgesetzt. Ich denke, dass müsste auch einfacher gehen.

Grüße Reinhard
Mitglied: 122990
Solution 122990 Jan 17, 2016 updated at 15:55:39 (UTC)
Goto Top
Zitat von @fautec56:
Aber wie lese ich die Zeichenfolge 2016- + die nächsten 5 Buchstaben aus, Variable füllen, um dann damit die PDF-Datei umbenenne.
In Powershell eine einfache Regex-Expression:
[regex]::Match($VariablemitTextInhalt,'2016-.{5}').Value