Zugriffsstatistik, Serverstatistik, Browserstatistiken, Zugriffszähler, Counter, Access Log File
Navigation überspringen

Tipps zu Statistiken

Hier steht, was man aus Zugriffstatistiken erkennen kann und was nicht. Dazu wird zuerst einmal beschrieben, wie diese Statistiken zustande kommen und welche Probleme es dabei gibt.

Auf dieser Seite:

– — – — – — – — –

Besucherzähler (Counter)

Besucherzähler (Counter) sind meist Grafiken, die in die Seite eingebaut werden und Anzeigen, wie oft sie aufgerufen wurden. Die Grafiken, nicht die Seite.

Zum einen sind Zugriffszähler Bäh (siehe schlechte Inhalte). Zum anderen braucht man für jede Seite einen eigenen Zähler und nicht zuletzt liefert die reine Anzahl der Aufrufe keine sinnvolle Information.

Es gibt mehrere Wege, solche Zugriffszähler zu implementieren:

Um Zugriffe auf den Server zu zählen, sind die Server Logs immer noch der beste Weg.

– — – — – — – — –

Web Server Logs

Web Server Logs schreiben alles mit, was der Webserver an Anfragen bekommt und wie er sie beantwortet. Sie dienen primär dazu, demjenigen zu helfen, der den Server administrieren muss. Allerdings können diese Informationen auch für andere Nützlich sein.

So kann eine Zeile aus dem Log aussehen (Die Zeilenumbrüche habe ich eingefügt, damit man sie hier besser Lesen kann):

80.128.252.242 - - [25/Apr/2003:11:55:30 +0200]
 "GET /screen/ HTTP/1.1" 200 - www.bestviewed.de
 "http://www.google.de/search?
  q=bildschirmaufl%C3%B6sung+schriftgr%C3%B6%C3%9Fe
  &ie=UTF-8&oe=UTF-8&hl=de&meta="
 "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)" "-"

Die einzelnen Felder sind dabei:

IP-Adresse - - [Datum & Uhrzeit des Zugriffs]
   Abfrage Return Code - Domain
   Referer
   User Agent "weißnich"

Die IP-Adresse ist die, von der die Abfrage erfolgte. Das kann der Rechner des Besuchers sein, aber z. B. auch ein Proxy. Die Abfrage zeigt, was wirklich angefordert wurde und der Return Code was geliefert wurde. 200 heißt OK und die Seite wird ausgeliefert. 404 wäre Seite nicht gefunden. Interessant ist der Referrer, also die verweisende Seite. Hier steht zum Beispiel in der URL die Suchabfrage drin, über die der Besucher auf diese Seite gekommen ist: "Bildschirmauflösung Schriftgröße".

Die diejenigen, die etwas länger schmökern wollen: Ein Tag aus dem Log von bestviewed.de.

Aus diesen Daten kann man dann Statistiken machen: Welche Datei am häufigsten angefordert wurde, von welcher URL die meisten Verweise kamen, usw. Hier mal ein Beispiel, das mit Webalizer Version 2.01 aus dem Tages-Log von oben erstellt wurde:

Summary by Month
Month Daily Avg Monthly Totals
Hits Files Pages Visits Sites KBytes Visits Pages Files Hits
Apr 2003 554 474 185 39 77 5732 39 185 474 554
Totals 5732 39 185 474 554

Hier kann man auf Anhieb erkennen, das es deutliche Unterschiede zwischen Hits (Anzahl der Anfragen), Files (Anzahl der ausgelieferten Dateien) und Pages (Anzahl der HTML-Seiten) gibt. Da zu einer Seite meist mehrere Dateien gehören (Stylesheet, Bilder, ...) ist es klar, dass mehr Dateien als Seiten ausgeliefert wurden. Außerdem gibt es auch Anfragen von Browsern oder Proxies, ob eine Seite noch aktuell ist. Hier wird nur ein Return Code geliefert, aber keine Datei.

Leider werden alle prozentualen Anteile der Statistik auf die Hits bezogen, so dass z. B. Textbrowser oder Browser die keine Grafiken laden deutlich unterrepräsentiert werden, denn sie forden ja nur die Seite an und nicht auch die Grafiken. Wer will kann sich hier auch die vollständige Auswertung ansehen. Und dann darüber nachdenken, was einem diese Zahlen sagen wollen (und können).

– — – — – — – — –

Proxies und Caches

Zwischenspeicher aller Art sind sehr nützlich, um das Netz und die Server zu entlasten und die Zugriffsstatistik beliebig zu verfälschen.

Ein Proxy speichert Seiten, die jemand angefordert hat zwischen, damit er sie bei der nächsten Anforderung direkt aus seinem Speicher ausliefern kann. Dabei spielt es keine Rolle, ob die nächste Anforderung von dem selben Surfer stammt. Damit entlastet er das Netz und den eigentlichen Server und kann zusätzlich die Seiten schneller liefern. Alle großen Provider setzen Proxies ein, aber auch viele lokale Netze, um den Durchsatz der Internetanbindung zu optimieren.

Der Browser-Cache dient dem selben Zweck, allerdings nur jeweils für einen Browser. Insbesondere beim Drücken des "zurück"-Buttons kann dann einfach die Seite aus dem lokalen Speicher geholt werden. Aber auch am nächsten Tag, wenn man noch etwas nachlesen möchte, erfolgt u.U. kein Zugriff auf den Server.

Dies alles ist nützlich, aber die Statistik auf dem Server kann dadurch ziemlich verfälscht werden. Wenn viele Besucher in der selben Firma arbeiten, taucht evtl. nur 1 Zugriff in der Statistik auf. Wenn verschiedene Browser unterschiedliche Cache-Algorithmen verwenden, verfälscht dies die Gewichtung der Browser bei den Zugriffen. ...

"Dann muss ich meine Seiten einfach als nicht Cacheable kennzeichnen, schon stimmt die Statistik wieder!" - Prima Idee. Bringen Sie das Internet zum völligen Zusammenbruch. Nerven Sie Ihre Besucher mit langen Ladezeiten. Trotzdem hält sich nicht jeder Proxy und schon gar nicht jeder Browser-Cache daran. Und was haben Sie davon, wenn jedes Klicken auf den "zurück"-Button als neuer Aufruf Ihrer Link-Seite gezählt wird? Lesen Sie einfach weiter, was ihnen die so erhaltenen Daten sagen können - und was nicht. Und dann überlegen Sie noch mal, ob sich der Aufwand wirklich lohnt.

– — – — – — – — –

Fehldeutungen

Statistiken können keine Aussage über das Warum treffen, sie zeigen immer nur das Was. Leider werden Sie oft als Beweis für die Richtigkeit von Aussagen herangezogen, die sich damit nicht im Ansatz belegen lassen. Hier ein paar klassische Fehlschlüsse:

Zusammenfassend läßt sich sagen: Eine Webserverstatistik läßt keine Aussage darüber zu, was mit den Seiten, die da abgerufen wurden, geschah. Ob sie überhaupt jemand zu Gesicht bekam und wenn, ob er sie gelesen hat oder ob sie ein Robot abgerufen hat, oder ob nur jemand die Geschwindigkeit des Seitenaufbaus testen wollte.

– — – — – — – — –

Nützliches aus Statistiken

Statistiken sind nicht völlig sinnlos, ein paar Informationen erhält man dadurch schon. Teilweise aber mehr durch die Log-Dateien, als durch deren Auswertung.

Urheber © Dr. Joachim Wiesemann

Letzte Aktualisierung: 27.5.2006

– — – — – — – — –

Verweise (Links)