crazycat-1
Goto Top

Leerzeilen in Datei nach sort - Befehl

Kann mir jemand sagen, woher die vielen Leerzeilen nach einem sort - Befehl stammen?

Vor diesem Befehl ist keine einzige Leerzeile in der Datei.

Kann man die Leerzeilen irgendiwe unterdrücken? (unter UNIX hilft ja /n damit man wenigstens nur eine Leerzeile hat, aber gibt es so etwas auch bei M$)

Content-Key: 36633

Url: https://administrator.de/contentid/36633

Printed on: April 16, 2024 at 08:04 o'clock

Member: Biber
Biber Jul 25, 2006 at 09:01:57 (UTC)
Goto Top
Moin CrazyCat,

ist mir zwar nicht bekannt, dass der Sort-Befehl zusätzliche Leerzeilen einstreut, aber -egal, wo die jetzt herkommen- wegfiltern kannst Du es z.B. mit einer zusätzlichen Filterung über FindStr.exe. Mit Findstr.exe alle Zeilen entsorgen, bei denen Zeilenende "$" direkt am Zeilenanfang "^" steht.

Beispiel:
sort /?|sort|findstr /v "^$"  
..sortiert die Hilfe-Ausgabe von "Sort" (halt irgendeinen Text) und PIPEd das ganze weiter an FindStr.

Gruß
Biber
Member: CrazyCat-1
CrazyCat-1 Jul 25, 2006 at 10:10:58 (UTC)
Goto Top
Bei einer Datei müßte das dann so aussehen:

sort datei1.txt|findstr /v "^$ > datei2.txt

oder?

€dit: Das ganze müßte doch auch mit "find" funktionieren, oder ist findstr in dieser Hinsicht schneller?

Gibt es keinen direkten Weg die Dateien ohne Leerzeilen zu sortieren?

Auf die Option /o von sort werde ich wohl verzichten müssen, oder?
Member: Biber
Biber Jul 25, 2006 at 13:26:49 (UTC)
Goto Top
Moin CrazyCat nochmal,

zu Deinen Fragen...
Bei einer Datei müßte das dann so aussehen:
sort datei1.txt|findstr /v "^$ > datei2.txt
In etwa ja.
sort datei1.txt|findstr /v "^$">datei2.txt  
€dit: Das ganze müßte doch auch mit "find" funktionieren, ....
Ich weiß nicht, ob Find.exe auch leere Zeilen im Sinne von "nicht mal ein Leerzeichen drin" finden kann.
Find /v "" datei1.txt ---------->funktioniert jedenfalls nicht wie gewünscht und
Find /v " " datei1.txt ----------> bringt halt alle Zeile OHNE LeerZEICHEN incl der ganz leeren Zeilen.
oder ist findstr in dieser Hinsicht schneller?
Wieso? Esst ihr zeitig?
Gibt es keinen direkten Weg die Dateien ohne Leerzeilen zu sortieren?
Keinen, den ich kenne... mehr würde ich nicht behaupten.
Auf die Option /o von sort werde ich wohl verzichten müssen, oder?
Nein, warum? Kannst die PIPErei doch in alle Richtungen drehen.. ist doch ein freies Land hier.
Beispiel:
>findstr f:\Datei1.txt /v "^$"|sort /o:x:\sortdata.txt  

Gruß
Biber

[Edit] BTW: Ob die Ausgangsdatei tatsächlich keine leeren Zeilen enthält, kannst Du ja vorher mit dem FindStr-Befehl prüfen:
>findstr /n "^$" datei1.txt   
...würde Dir ja alle Zeilennummern anzeigen, die nach M$-Meinung leer sind.
Würde mich wirklich wundern, wenn der SORT-Befehl Leerzeilen hinzufügt.
[/Edit]
Member: CrazyCat-1
CrazyCat-1 Jul 26, 2006 at 07:13:56 (UTC)
Goto Top
Die Ausgangsdatei enthält keine Leerzeichen.

Ja, ich esse zeitig. Nee, im Ernst. Die Batchdatei verarbeitet Messwerte von Anlagen.

Da diese relativ schnell gesendet werden, erhalte ich innerhalb kürzester Zeit enorme Datenmengen.

Damit ich diese schnell genug verarbeiten kann, muss die Batch - Datei so schnell als möglich arbeiten (vor allem da der Server schon ziemlich ausgelastet ist)


Deine Kombination sortiert zwar den Dateiinhalt, löscht aber die Leerzeilen nicht.
2. sind in manchen Zeilen Leerzeichen (zwischen 1 und 10 Leerzeichen) enthalten.

Wie bekomme ich alle Zeilen ohne Text raus?
Member: Biber
Biber Jul 26, 2006 at 07:31:33 (UTC)
Goto Top
Na ja, CrazyCat,

dann wäre meine nächste Frage natürlich:
Ist denn ein "physisches" Sortieren der Messdaten nötig? Denn Sortiervorgänge (physisches Neuordnung der Datenzeilen) braucht immens viel Ressourcen.
Effizienter wäre ja ein "logische" Sortierung, also eine Indizierung der Daten-"Sätze" zu einem späteren Zeitpunkt (wenn die Daten in eine DB-Struktur importiert worden sind).

Im Moment ist der Ablauf bei Dir so, wenn ich das richtig verstehe:
a) - Entstehung/Bereitstellung der Messdaten in chronologischer Form
b) - Aufbereitung/Filterung spaltenweise per Batch
c) - physische SORTierung per Batch
d) - und dann? Import in Excel? Datenbank? Oder keine Weiterverarbeitung außer Archivierung?

Lässt sich die Reihenfolge nicht ändern in
a) - Entstehung/Bereitstellung der Messdaten in chronologischer Form
b) - Import in eine DB-Struktur
---> dadurch automatische "logische" Neuordnung via Index
---> Nicht-Übernahme der "uninteressanten" Spalten/Datenfelder?

Gruß
Biber
Member: CrazyCat-1
CrazyCat-1 Jul 26, 2006 at 07:58:59 (UTC)
Goto Top
Die Daten kommen in chronoligischer Reihenfolge, allerdings nicht richtig sortiert für den Upload.

So stehen z.B. Keys mit der Nummer 4 vor Keys mit der Nummer 1 usw.

Damit ich die Daten in die DB richtig übertragen kann ist eine Sortierung der Keys notwendig. Keys mit Nummer 0, Keys mit Nummer 1, Keys mit Nummer 2, Keys mit Nummer 3 usw.

Wird diese Reihenfolge innerhalb der Datei nicht eingehalten, kann der Uploadclient die Daten nicht verarbeiten und der Upload schlägt fehl.

Darum ist es unbedingt notwendig den Dateiinhalt zu sortieren.
Member: Biber
Biber Jul 26, 2006 at 11:47:42 (UTC)
Goto Top
Na ja, CrazyCat,

wenn doch aber die "Satzart" 1-4 offensichtlich als erstes Zeichen in jeder Zeile steht und alle "leeren Zeilen" ohnehin weggefiltert werden müssen, dann wäre doch die vermutlich schnellste "physische Sortierung" ohne SORT.

[für jede Messdatendatei in unsortierter Form:
Findstr "^1" Messdatendatei.xyz>sortdata.txt  
Findstr "^2" Messdatendatei.xyz>>sortdata.txt  
Findstr "^3" Messdatendatei.xyz>>sortdata.txt  
Findstr "^4" Messdatendatei.xyz>>sortdata.txt  

Sollte schneller gehen als die Varianten mit SORT.
Gruß
Biber
Member: CrazyCat-1
CrazyCat-1 Jul 28, 2006 at 05:54:17 (UTC)
Goto Top
Werd's mal versuchen, aber ich denke das beide Varianten in etwa gleich schnell sein werden.

Was ist überhaupt der Unterschied zwischen find und findstr?

Die Funktionen sind ja im Prinzip die gleichen.
Member: Biber
Biber Jul 28, 2006 at 07:32:30 (UTC)
Goto Top
Im Prinzip sind auch Windows XP und MacOS das Gleiche... haben auch ähnliche Funktionen. Oder mein Toyoto-Wrack und ein Mercedes SLK. Oder Angela Merkel und Madonna.

Find sucht nach Buchstaben oder Zeichenfolgen in Zeilen genau einer Textdatei.
Findstr kann dasselbe und darüber hinausgehend in mehreren Dateien/Verzeichnisstrukturen auch nach regulären Ausdrücken (=Suchmustern) suchen.
Einen praktischen Nutzen (der mit Find nicht erreichbar wäre) siehe oben: es lässt sich zum Beispiel am Satzanfang/Satzende suchen oder nach "Worten" mit bestimmtem Beginn oder Ende.

Mit "Find" kannst Du eben nicht nach Zeilen suchen, die mit "1", "2", "3" oder "4" beginnen, sondern nur nach Zeilen, die diese Zeichen enthalten. Das ist schon ein massiver Unterschied.
Gruß
Biber
Member: JohnnyB
JohnnyB Jul 29, 2006 at 23:27:31 (UTC)
Goto Top
Hallo CrazyCat,

ich habe zu Deinem Problem mit den Leerzeilen mal eine ganz andere Frage:

Du schreibst, es sind nach der Sortierung viele Leerzeilen, obwohl vorher keine da waren.
Sind es am Ende evtl. genauso viele Leerzeilen, wie Meßwerte?
Könnte es evtl. sein, daß die Meßdatenerfassung und die Sortierung auf Rechnern mit unterschiedlichen OS stattfindet?
Bei Windows wird doch afaik bei Textdateien eine Zeile mit LF (Line feed) und CR (carriage return) abgeschlossen, während z.B. bei UNIX der Zeilenvorschub nur durch ein LF initialisiert wird.
Könnte das evtl. der Grund für die Leerzeilen sein?
Member: CrazyCat-1
CrazyCat-1 Jul 31, 2006 at 11:15:40 (UTC)
Goto Top
Naja, es sind im Prinzip 2 verschiedene Betriebssysteme -> 1x Siemens, 1x Microsoft.

Ich hab' noch nicht nachgezählt, aber wenn ich den Cursor an die letzte Leerzeile stelle, dann bin ich ungefähr in der Mitte der Datei.
Die Vermutung klingt daher irgendwie logisch.
Member: JohnnyB
JohnnyB Jul 31, 2006 at 15:01:03 (UTC)
Goto Top
Ich weiß jetzt natürlich nicht, mit welcher Software die Daten erfaßt und versendet werden, aber vielleicht gibt es ja dort irgendeine Einstellung, die sinngemäß lautet: "Dateien Windows kompatibel speichern/versenden".
Member: CrazyCat-1
CrazyCat-1 Aug 02, 2006 at 06:02:39 (UTC)
Goto Top
Nein, leider nicht.

Ich werde also um das Rausfiltern der "Leerzeilen" nicht herumkommen.
Member: Biber
Biber Aug 02, 2006 at 06:13:57 (UTC)
Goto Top
Moin CrazyCat,

dann eben Plan B...
...wenn sichergestellt ist, dass immer Leerzeilen dabei sind, dann lass vom MORE-Befehl "mehrere Leerzeilen zu einer zusammenfassen" (s.Hilfe zu More /?; Option /S).
Dann hast Du genau eine Leerzeile, und die kannst Du ggf. SKIPpen.

Hast Du denn die Variante mit den 4 FindStr-Zeilen hintereinander mal probiert?
Die sollte in der Theorie die vielversprechendste sein.

Gruß
Biber
Member: CrazyCat-1
CrazyCat-1 Aug 02, 2006 at 06:32:48 (UTC)
Goto Top
Ja, die Variante habe ioch probiert.

Sie ist in etwa gleich schnell wie die Variante mit SORT.

Da das Programm mit SORT etwas einfacher wird, verwende ich derzeit diese Methode.

€dit: Werde mal die Variante mit MORE versuchen, das sollte nochmals etwas Zeit einsparen, wenn die Datei von Anfang an kleiner ist und nur eine Zeile übersprungen werden muss.
Member: JohnnyB
JohnnyB Aug 02, 2006 at 09:39:03 (UTC)
Goto Top
Habe mal ein bischen gegoogelt und bin auf folgendes Tool gestoßen, welches das Zeilenumbruchproblem behandelt:

www.megaloman.com/~hany/software/hd2u/

Vielleicht hilft es ja.
Member: CrazyCat-1
CrazyCat-1 Aug 04, 2006 at 07:36:47 (UTC)
Goto Top
Danke,

ich werde mir das mal ansehen.

Mal sehen was es bringt.