Gruppieren und zählen von IP Adressen in der access.log

Manchmal will man als Administrator/Webmaster wissen, von welchen IP Adressen auf den Webserver zugegriffen wird. Ein sehr schneller weg um das herauszufinden geht über die access.log.

Der folgende Befehl liefert die Anzahl aller IP Adressen in der access.log.

$ pcregrep -o ‚^[0-9.]+(?=\s)‘ /var/log/apache2/access.log | sort | uniq -c | sort -bg

Das Egebnis sieht in etwa so aus. (Die Anzahl der Einträge gefolgt von der IP)

   5 84.159.***.***
  39 216.67.***.***
  41 81.16.***.***
  90 10.100.100.123
 919 10.100.100.36
1880 10.100.100.56
2613 10.100.100.56

Hinweis: Die öffentlichen IP Adressen dieses Beispiels eines Testservers wurden mit Sternchen unkenntlich gemacht.

Sollte pcregrep nicht installiert sein, kann man es wie folgt installieren.

$ sudo apt-get install pcregrep

pcregrep gegen grep

Um mit reguläre Ausdrücken auf der Linux-Konsole zu suchen, verwendete ich meist das Programm grep. Zufällig bin ich jetzt auf pcregrep gestoßen. Das kleine Tool befindet sich in den Paketquellen von Ubuntu und kann wie folgt installiert werden.

$ sudo apt-get install pcregrep

Im direkten Vergleich zeigt sich, das pcregrep deutlich schneller bei der Verarbeitung von Perl Kompatiblen Ausdrücken ist als grep -E.

$ time grep -o -E ‚^[0-9.]+\s‘ access.log > /dev/null
real 0m1.526s
user 0m1.508s
sys 0m0.012s

im Vergleich zu ….

$ time pcregrep -o ‚^[0-9.]+(?=\s)‘ access.log > /dev/null
real 0m0.036s
user 0m0.032s
sys 0m0.000s

Die Grundlage des Vergleichs ist die Suche nach IP Adressen in einer ca. 7 MB großen access.log Datei eines Apache. Wenn man das Ergebnis mal hochrechnet auf eine GB große Datei, macht sich der Unterschied schon ganz schön bemerkbar.

Weitere Informationen zum Thema:
http://manpages.ubuntu.com/manpages/precise/man1/pcregrep.1.html
http://manpages.ubuntu.com/manpages/precise/man1/grep.1.html