Reguläre Ausdrücke

6.4 sed

sed (Stream Editor) ist ein sehr mächtiges und auf allen Unix-artigen Systemen populäres Tool. Man verwendet sed ähnlich wie awk. Allerdings ist sed weniger eine Programmiersprache – wobei es allerdings auch möglich ist, Skripte zu erstellen – , sondern vielmehr ein Programm zur Prüfung von Textstreams auf reguläre Ausdrücke. Seine spezielle Stärke besteht dabei darin, diese gefilterten Ausdrücke zu bearbeiten. So können Textbereiche beispielsweise ersetzt oder auch gelöscht werden.

6.4.1 Erste Schritte

In diesem Abschnitt soll es nicht um die ehemalige DDR-Partei, sondern um einen mächtigen Editor gehen, der zum Standardumfang eines jeden Unix-Systems gehört. sed ist kein herkömmlicher Editor, wie man ihn etwa von einer grafischen Oberfläche kennt. sed verfügt über keinerlei Oberfläche, nicht einmal über die Möglichkeit, während der Laufzeit interaktiv Eingaben vorzunehmen.

Abbildung 6.1 Die Arbeitsweise von sed

Der Nutzen von sed ist auch nicht ganz mit dem eines »normalen« Editors gleichzusetzen. Die Aufgabe von sed ist die automatische Manipulation von Text-Streams. Ein Text-Stream ist nichts anderes als ein »Strom von Zeichen«. Dieser kann sowohl direkt aus einer Datei als auch aus einer Pipe kommen. Dabei liest sed den Stream zeilenweise ein und manipuliert Zeile für Zeile nach dem Muster, das ihm von der Anwenderin bzw. vom Anwender vorgegeben wurde.

Der Aufruf von sed erfolgt durch Angabe einer Manipulationsanweisung (entweder direkt in der Kommandozeile oder durch eine Skriptdatei, die diese Anweisung[en] enthält). Dazu übergibt man entweder eine Datei, die als Eingabequelle dienen soll, oder tut eben dies nicht, woraufhin sed von der Standardeingabe liest.

sed [Option] [Skript] [Eingabedatei]

Listing 6.35 sed aufrufen

Sofern sed ohne Eingabedatei betrieben wird, muss das Programm manuell durch die Tastenkombination (Strg) + (D) beendet werden. Auf dem Bildschirm erscheint dann die Ausgabe ^D.

Zunächst einmal gibt sed standardmäßig alle Zeilen nach der Bearbeitung aus. Um dies zu veranschaulichen, verwenden wir einen sehr einfachen sed-Aufruf. Dabei nutzen wir die Anweisung 'p'. Sie besagt in diesem Fall nichts weiter, als dass alle Zeilen ausgegeben werden sollen. Doch wie Sie sehen ...

user$ sed 'p'
Hallo, Sed!     # Dies ist die manuelle Eingabe.

Hallo, Sed!     # Dies bewirkt 'p'.

Hallo, Sed!     # Dies ist die standardmäßige Ausgabe.
^D              # sed wird durch Strg + D beendet.

Listing 6.36 sed 'p'

... gibt sed unsere eingegebene Zeile zweimal aus. Die erste Ausgabe kam durch den Befehl 'p' zustande, die zweite durch die standardmäßige Ausgabe jeder manipulierten Zeile. Um dieses manchmal unerwünschte Feature zu deaktivieren, muss die Option -n verwendet werden:

user$ sed -n 'p'
Hallo, Sed!
Hallo, Sed!
^D

Listing 6.37 sed -n 'p'

Verwenden Sie eine Datei als Stream-Quelle, müssen Sie sie nur zusätzlich beim Aufruf angeben. Da Sie bereits den Befehl 'p' kennen, werden Sie vielleicht schon auf die Idee gekommen sein, sed einmal als cat-Ersatz zu verwenden. cat gibt den Inhalt einer Datei auf dem Bildschirm aus. sed tut dies bei alleiniger Verwendung des 'p'-Befehls ebenfalls.

user$ sed -n 'p' /etc/passwd
root:x:0:0::/root:/bin/zsh
bin:x:1:1:bin:/bin:
daemon:x:2:2:daemon:/sbin:
adm:x:3:4:adm:/var/log:
...

Listing 6.38 sed mit Eingabedatei

6.4.2 sed-Befehle

Beschäftigen wir uns nun mit den Befehlen, die uns in sed zur Verfügung stehen. Mit dem ersten Befehl 'p' sind Sie bereits in Kontakt gekommen. Dieser Befehl gibt die Zeilen aus.

Doch wie verwendet man nun einen regulären Ausdruck mit solch einem Befehl? Die Antwort ist recht simpel: Man schreibt ihn in zwei Slashes und den Befehl (je nach Befehl) davor oder dahinter. Alles zusammen setzt man der Einfachheit halber in Hochkommata, damit die Metazeichen nicht anderweitig von der Shell interpretiert werden – etwa so:

$ sed -n '/[Ff]/p' Standorte

Listing 6.39 Verwendung von Slashes

Dieser Ausdruck würde nun alle Zeilen herausfiltern, in denen ein großes oder kleines »f« enthalten ist, und sie anschließend auf der Standardausgabe ausgeben (p).

Zur internen Funktionsweise von sed ist noch anzumerken, dass das Programm mit zwei Puffern arbeitet, in denen die Zeilen gespeichert werden. Der erste Puffer ist der Patternspace. In diesen wird eine Zeile geladen, wenn sie einem Muster entsprochen hat. Der zweite Puffer ist der Holdspace. Nach der Bearbeitung einer Zeile wird sie vom Pattern- in den Holdspace kopiert. Hier ein Beispiel:

Der Befehl x tauscht den Inhalt des Patternspace mit dem des Holdspace. Dies geschieht jedes Mal, wenn eine Zeile ein großes »F« enthält, da wir dies als Muster angegeben haben.

user$ sed '/F/x' Standorte
Augsburg
Bremen

Aschersleben
Bernburg
Berlin
Halle
Essen
Friedrichshafen
Kehlen
...

Listing 6.40 Austausch von Hold- und Patternspace

Wie Sie sehen, folgt nach »Bremen« eine Leerzeile. Dort war der Holdspace noch leer. Da dieser aber mit dem Patternspace (der »Friedrichshafen« enthielt) vertauscht wurde, wurde eine leere Zeile ausgegeben. Nachdem die Leerzeile ausgegeben wurde, befindet sich nun also »Friedrichshafen« im Holdspace. Später wird »Friedrichshafen« ausgegeben, obwohl »Furtwangen« im Patternspace enthalten war. Dies liegt auch wieder daran, dass durch den x-Befehl der Pattern- und der Holdspace vertauscht wurden. Doch es gibt noch einige weitere sed-Befehle. Die folgende Tabelle zeigt die wichtigsten.

Befehl	Auswirkung
`/ausdruck/=`	Gibt die Nummern der gefundenen Zeilen aus.
`/ausdruck/a\` `string`	Hängt `string` an die Zeile an, in der `ausdruck` gefunden wird (append).
`b label`	Springt zum Punkt `label` im `sed`-Skript; falls `label` nicht existiert, wird zum Skriptende gesprungen.
`/ausdruck/c\` `string`	Ersetzt die gefundenen Zeilen durch `string` (change).
`/ausdruck/d`	löscht die Zeilen, in denen `ausdruck` gefunden wird (delete).
`/ausdruck/D`	Löscht den Patternspace bis zum ersten eingebundenen Zeilenumbruch (`\n`) in `ausdruck`; sofern weitere Daten im Patternspace vorhanden sind, werden sie übersprungen.
`/ausdruck/i\` `string`	Fügt `string` vor der Zeile ein, in der `ausdruck` gefunden wird (insert).
`/ausdruck/p`	Gibt die gefundenen Zeilen aus (print).
`/ausdruck/q`	Beendet `sed`, nachdem `ausdruck` gefunden wurde (quit).
`/ausdruck/r datei`	Hängt hinter `ausdruck` den Inhalt der Datei »datei« an (read from file).
`s/ausdruck/string/`	Ersetzt `ausdruck` durch `string`; ein Beispiel zu diesem Befehl folgt weiter unten.
`t label`	Falls seit dem letzten Lesen einer Zeile oder der Ausführung eines `t`-Befehls eine Substitution (`s`-Befehl) stattfand, wird zu `label` gesprungen. Lassen Sie `label` weg, wird zum Skriptende gesprungen.
`/ausdruck/w datei`	Schreibt den Patternspace in die Datei `datei`; ein Beispiel zu diesem Befehl folgt weiter unten.
`/ausdruck/x`	Tauscht den Inhalt von Holdspace und Patternspace; eine Beispielanwendung dieses Befehls finden Sie in Listing 6.40.
`y/string1/string2/`	Der Befehl vertauscht alle Zeichen, die in `string1` vorkommen, mit denen, die in `string2` angegeben sind, wobei die Positionen der Zeichen entscheidend sind: Das zweite Zeichen in `string1` wird durch das zweite in `string2` ersetzt usw. Ein Beispiel zu diesem Befehl folgt weiter unten.

Tabelle 6.4 sed-Befehle

Es folgen nun einige exemplarische Listings zur Anwendung von sed. Zunächst soll der Befehl w angewandt werden, der die gefundenen Ausdrücke in eine Datei schreibt. Um alle anderen Ausdrücke zu unterdrücken, wird die Option -n verwendet. Es sollen dabei alle Zeilen, in denen ein »F« vorkommt, in die Datei out.log geschrieben werden.

$ sed -n '/F/w out.log' Standorte
$ cat out.log
Friedrichshafen
Furtwangen

Listing 6.41 w-Befehl

Aber auch die Substitution von Ausdrücken ist in sed kein Problem. Mit dem Befehl s kann ohne Weiteres ein Ausdruck durch einen String ersetzt werden. Im Folgenden sollen alle »n«-Zeichen durch den String »123456« ersetzt werden.

$ sed 's/n/123456/' Standorte
Augsburg
Breme123456
Friedrichshafe123456
Ascherslebe123456
Ber123456burg
Berli123456
Halle
Esse123456
Furtwa123456gen
Kehle123456
Krumbach
Os123456abrueck
Kempte123456

Listing 6.42 s-Befehl

$ sed 'y/abcdefgh/ijklmnop/' Standorte
Auosjuro
Brmmmn
Frimlrikpspinmn
Askpmrslmjmn
Bmrnjuro
Bmrlin
Hillm
Essmn
Furtwinomn
Kmplmn
Krumjikp
Osnijrumkk
Kmmptmn

Listing 6.43 y-Befehl

6.4.3 Nach Zeilen filtern

Ein weiteres Feature von sed ist die Möglichkeit, nach bestimmten Zeilen zu filtern. Dabei kann entweder explizit eine einzelne Zeile oder ein ganzer Zeilenbereich angegeben werden. Gegeben sei die Datei myfile mit dem folgenden Inhalt:

$ cat myfile
Zeile1
Zeile2
Zeile3
Zeile4
Zeile5
Zeile6

Listing 6.44 myfile

Eine Einzelzeile kann durch Angabe der Zeilennummer in Verbindung mit dem p-Befehl herausgefiltert werden. Durch die Option -e lassen sich noch weitere Einzelzeilen in einem einzelnen Aufruf von sed filtern.

$ sed -n '2p' myfile
Zeile2
$ sed -n -e '1p' -e '2p' myfile
Zeile1
Zeile2

Listing 6.45 Einzelzeilen filtern

Um nach Zeilenbereichen zu filtern, geben Sie beide Zeilennummern, die diesen Bereich begrenzen, durch ein Komma getrennt an.

$ sed -n '2,5p' myfile
Zeile2
...

Zeile5

Listing 6.46 Zeilenbereiche

Das Dollarzeichen steht dabei symbolisch für das Zeilenende:

$ sed -n '3,$p' myfile
Zeile3
Zeile4
Zeile5
Zeile6
$ sed -n '$p' myfile
Zeile6

Listing 6.47 Das Zeichen $

6.4.4 Wiederholungen in regulären Ausdrücken

Kommen wir nun zu einem weiteren Feature in Bezug auf die regulären Ausdrücke für sed: das n-fache Vorkommen eines Ausdrucks. Auch für dieses Thema verwenden wir wieder eine Beispieldatei wh (Wiederholung) mit folgendem Inhalt:

Ktze
Katze
Kaatze
Katatze
Katatatze

Listing 6.48 Die Datei wh

Das mehrmalige Vorkommen von Einzelzeichen kann durch den Stern- Operator (*), den wir Ihnen bereits vorgestellt haben, festgestellt werden. Er l"asst sich in einen regulären Ausdruck einbauen und bezieht sich auf das ihm vorangestellte Zeichen. Dabei kann dieses keinmal, einmal oder beliebig oft vorkommen.

$ sed -n '/Ka*tze/p' wh
Ktze
Katze
Kaatze
$ sed -n '/Kaa*tze/p' wh
Katze
Kaatze

Listing 6.49 Anwendung des *-Operators

Es ist nicht nur möglich, einzelne Zeichen, sondern auch ganze Ausdrücke beliebig oft vorkommen zu lassen. Dabei wird der jeweilige Ausdruck in Klammern geschrieben (die escaped werden müssen).

$ sed -n '/\(at\)*/p' wh
Ktze
Katze
Kaatze
Katatze
Katatatze

Listing 6.50 Der Operator ()

Möchten Sie hingegen die Anzahl der Vorkommen eines Zeichens oder eines Ausdrucks festlegen, so müssen Sie diese Anzahl in geschweifte Klammern hinter den jeweiligen Ausdruck schreiben. Dabei ist zu beachten, dass auch die geschweiften Klammern als Escapesequenzen geschrieben werden.

Im nächsten Ergebnis muss der Ausdruck at zweimal hintereinander vorkommen:

$ sed -n '/\(at\)\{2\}/p' wh
Katatze
Katatatze

Listing 6.51 Mehrmalige Vorkommen mit dem {}-Operator angeben