Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Apache, Lighttpd, nginx, Cherokee
theomega
Userprojekt
Userprojekt
Posts: 696
Joined: 2003-01-27 14:36
 

Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by theomega »

Hallo Leute,
ich habe hier einen Serverbund (3x Athlong 64 X2 4000+, 2GB RAM, SATA-Platten). Auf allen Servern läuft in irgeneiner Form ein Webserver (für die Statischen Inhalte ein lighttpd, für die dynamischen Sachen ein Apache und ein weiterer Apache fürs Bannerscript und einige weitere Dinge). Ich brauche für alle Seiten irgendeine Art der Log-File Auswertung, das verlagt der Kunde.

Bis jetzt bin ich mit Awstats ganz gut gefahren, vor allem weil der Funktionsumfang gefallen hat. Das zunehmende Problem ist: Awstats kommt mit seiner eigenen Datenbank nichtmehr zurecht, bzw braucht ewig um die Logdateien zu analysieren. Selbst wenn ich die Dateien alle 5 Minuten anaylisieren lasse sind die Server teilweise voll ausgelastet, so das ich mit nice die priorität zurücknehmen muss was die Laufzeit von Awstats nochmal verlängert.
Wie gesagt, ich vermute das Problem in der Datenbank von Awstats in dem die ganzen Werte abgegelgt werden, aber einer bestimmten Größe scheint die wirklich unperformant zu werden.

Wer kennt Alternativen die ungefähr den gleichen Funktionsumfang bieten? Theoreitsch könnte ich mich auch auf externe Anbieter einlassen (dürfen gerne auch was kosten), solange der Funktionsumfang erhalten bleibt.

Wer kann mir ein Paar Tipps geben?

Danke
TO
flo
Posts: 2223
Joined: 2002-07-28 13:02
Location: Berlin
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by flo »

1) Google Analytics - recht sinnvolles System, erfordert aber auch Einarbeitung, ich bin damit noch nicht soweit, bin allerdings derzeit auch nicht darauf angewiesen. Da solltest Du aber die Nutzungsbedingungen abklären - ich bin mir nicht sicher, ob die nicht eine Beschränkung drinhaben.

2) Webalizer - von Funktionsumfang und der optischen Präsentation nicht so anspruchsvoll wie awstats, aber im Normalfall (und IMHO) ausreichend.

Rotierst Du die Logs?

flo.
theomega
Userprojekt
Userprojekt
Posts: 696
Joined: 2003-01-27 14:36
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by theomega »

Ja, awstats löscht die Dateien direkt nach dem analysieren, daran liegt es nicht. Was mir (bzw den Kunden) wichtig ist, ist die Analyse nach Suchwörtern bei den Suchmaschinen. Das bietet Webalyzer imho nicht, und auch das um den Faktor 100 schnellere Analog kann das nicht.
Das google werd ich mir anschaun, danke
ephigenie
Posts: 68
Joined: 2006-01-12 17:01
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by ephigenie »

jepp - google analytics kann ich uneingeschränkt empfehlen...
allerdings würde ich mir persönlich (wir haben das auch so gemacht)
noch nen kleinen "hit-counter" per db-insert irgendwo auf der Seite einbauen - nur - damit du nochmal selber jeden PV zählen kannst - solltest du feststellen, dass google + eigene Werte übereinstimmen, kannst du das ja wieder abschalten.
Nur Google benutzt javascript - musst halt schauen wie deine user so drauf sind.

ne andere möglichkeit wäre logging via spread - framework (für ap1.x gibts da nen mod - aber den wirst du ja sicher nicht mehr nutzen) - ansonsten kannst du da über ne pipe rein loggen (geht auch mit lighty)

gleiches gilt dann auch für loggen in eine mysql. Ja - das hat den Vorteil, dass keine physikalischen Riesen-logs rumliegen - alleine das IO des db-servers eben - alle Server könnten in eine DB loggen...
Und um daraus jetzt wieder anständige Auswertungen zu bekommen, könnte man noch ein Stückel Software aus dem Hause Kneschke einsetzen - den guten alten mod_logan - der kann nämlich direkt aus der mysql - db seinen input ziehen... Das funktioniert recht gut (und von mir seit Jahren im Einsatz mit mod_log_sql ) Allerdings sollte hier auch in kürzeren Abständen geparst werden bei ner high-traffic seite.

Ich muss allerdings gestehen, das ich vor ner ähnlichen Situation stand wie du -> sprich große Seite und ne Woche lang keine täglichen Statistiken gemacht ... der Kunde wollte jedoch alle stats in einer Auswertung -> so ist ein 45Gbyte CLF Log-file entstanden.
Awstats hab ich nach 1,5 Monaten auf dem Server gekillt als er immer noch nicht fertig war.
Parallel sind wir dann umgestiegen auf google-analytics :)
theomega
Userprojekt
Userprojekt
Posts: 696
Joined: 2003-01-27 14:36
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by theomega »

Hallo,
auch dir danke für deine Antwort, das Google Analytics werde ich mir auf jeden Fall mal anschaun, auch wenn mir die ganze Sache ein bischen suspekt ist.

Egal ob ich jetzt mit Spread oder in eine Datenbank logge, wie erstell ich daraus wieder die reports?
Wenn ich die Zeit hätte(!) dann würde ich mir eine Analyse-Software auf der Basis einer richtigen Datebank schreiben, ich habe nur nicht die Zeit mich mit einer selbstgestrickten Lösung rumzuärgern.
knebb
Posts: 91
Joined: 2006-05-30 11:16
Location: M-V
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by knebb »

theomega wrote:Wenn ich die Zeit hätte(!) dann würde ich mir eine Analyse-Software auf der Basis einer richtigen Datebank schreiben, ich habe nur nicht die Zeit mich mit einer selbstgestrickten Lösung rumzuärgern.
Naja, Du mußt doch nicht alles neu erfinden. AWStats liegt doch wohl im Source vor. Mußt Du "einfach" nur die DB-Aufrufe anpassen und in eine richtige DB schreiben/ lesen lassen. Soooo wild dürfte das nicht sein. Und außerdem kann man für so etwas sicherlich externen Sachverstand (Programmierer etc.) "einkaufen".

Grüße
ryukia
Posts: 58
Joined: 2004-07-16 14:40
Location: Karlsruhe
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by ryukia »

theomega wrote:Was mir (bzw den Kunden) wichtig ist, ist die Analyse nach Suchwörtern bei den Suchmaschinen. Das bietet Webalyzer imho nicht,

Code: Select all

TopSearch 400
AllSearchStr yes
SearchEngine    google.         q=
SearchEngine    lycos.com       query=
SearchEngine    hotbot.com      MT=
[...]
Ciao
Ryukia
dante77
Posts: 36
Joined: 2006-10-18 11:33
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by dante77 »

Mir gefällt PHPTrafficA (einfach nach dem Namen googlen) sehr gut, wertet so ziemlich alles aus, sogar inkl. Benutzerpfaden. Allerdings habe ich keine Ahnung, wie es skaliert bzw. ob es sich für Seiten mit sehr hohem Traffic eignet.
flo
Posts: 2223
Joined: 2002-07-28 13:02
Location: Berlin
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by flo »

dante77 wrote:Mir gefällt PHPTrafficA ... Allerdings habe ich keine Ahnung, wie es skaliert bzw. ob es sich für Seiten mit sehr hohem Traffic eignet.
Ahnung hätte ich da schon - PHP ist nicht unbedingt eine Sprache, die ich auf so etwas ansetzen würde - perl oder c eignen sich dafür eeinfach aus Performancegründen wesentlich besser. Noch eindeutiger wird es bei Live-Statistiken.

flo.
User avatar
Joe User
Project Manager
Project Manager
Posts: 11182
Joined: 2003-02-27 01:00
Location: Hamburg
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by Joe User »

PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
kama
Posts: 51
Joined: 2004-05-11 22:07
Location: Aachen
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by kama »

Hallo,

ich habe AWStats für Server eingesetzt, die pro Tag ca. 1 GB Log File erzeugt haben (zwei Apache per Load-Balancer). Die haben in der nacht ca. 30-40 Minuten benötigt, um die Statistiken zu erzeugen.

Wichtig ist, dass die Log-Files auch nur tatsächlich das enthalten, was man analysieren möchte. Sprich per cronolog (o.ä.) die Log-Files z.B. täglich rotieren lassen. Nachdem der Log-File rotiert ist, sprich nicht mehr von Apache oder sonst wem drauf zugegriffen wird, dann erst AWStats drauf loslassen.

BTW: Warum machst Du die Statistiken alle 5 Minuten ?

BTW: DNS Lookup Einstellung in AWstats ist recht wichtig!

BTW: Schon mal Sawmill angeschaut ?...

MfG
Karl Heinz
theomega
Userprojekt
Userprojekt
Posts: 696
Joined: 2003-01-27 14:36
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by theomega »

Hallo Leute,
kleines Statusupdate:
Ich habe inzwischen alle drei Server auf Webalizer umgestellt. Der Geschwindigkeitsgewinn ist zwar sprübar, aber trotzdem nicht so groß wie ich es mir vorgestellt hätte (ein Benchmark hat ergeben das der Webalizer ungefähr 15% schneller ist). Das Hauptproblem ist einfach das einlesen der Historyfiles: Die Dateien sind ca. 100MB groß, da dauert schon das laden lange und außerdem auch jeder Zugriff auf die Daten. Also ganz perfekt ist die Lösung auf keinen Fall, aber es verschaft mir ein bischen "Luft" nach oben um eine bessere Lösung zu finden:

Was es mir träumt ist ein System das auf einem Datenbanksystem wie MySQL basiert und dort alle Daten ablegt. Das würde die Geschwindigkeit imho extrem erhöhen, mit den richtig gesetzten Indizies müsste auch eine Operation wie "Erhöh die Requestzahl für die Seite x um y" ganz einfach zu machen sein, selbst bei vielen verschiedenen Seiten. Es scheint mir nur im ganzen Internet kein entsprechendes Script/Program zu geben das eine Logdatei analysiert und das ergebniss in eine SQL-Datenbank transferiert.

Kennt jemand da was passendes?

Zum Thema Google Analytics: Mir hat es einigermaßen gefallen, leider hatten die Kunden keine Freude dran, sei zu kompilizert zu bedienen, vermutlich einfach zu viele Features.
theomega
Userprojekt
Userprojekt
Posts: 696
Joined: 2003-01-27 14:36
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by theomega »

Hy,
danke für die Links, ein bischen mehr Infos wäre ganz nett gewesen: Hast du oder jemand anderes das bereits im Einsatz, ist es zu empfehlen? In wie fern und in welchem Ausmaß kostet mich das Performance? Wird das asynchron durchgeführt und welche Optimierungen gibt es?

Gruß
TO
Roger Wilco
Posts: 5923
Joined: 2004-05-23 12:53
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by Roger Wilco »

Ich habe schon mit pgLOGd gearbeitet. Der Daemon erstellt einen FIFO, in den der Webserver loggen kann. Die Logeinträge werden direkt in die PostgreSQL-Datenbank geschrieben. Wenn der Datenbankserver nicht hinterherkommt, wird ein Puffer langsam gefüllt, der dann, wenn die Last etwas abgenommen hat, in die Datenbank geschrieben und damit geleert wird.

Es sollte klar sein, dass das Loggen in eine relationale Datenbank langsamer ist, als die Logeinträge einfach nur an eine Textdatei anzuhängen. Die Logs lassen sich auch problemlos mit einem kleinen Skript in eine relationale Datenbank bringen, allerdings wird das dann vermutlich genauso lange dauern, wie die Verarbeitung mit Webalizer. Außerdem ist mir kein Programm bekannt, das aus den Datenbankeinträgen dann schöne bunte Bildchen macht, d. h. da müsstest du noch selbst etwas basteln.
theomega
Userprojekt
Userprojekt
Posts: 696
Joined: 2003-01-27 14:36
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by theomega »

Wie machen das den High-Traffic-Seiten wie wikipedia oder andere? ich mein die werden doch auch Zugriffsstatiken in irgendeiner Form haben, oder täusch ich mich da?
Mir fällt gerade noch eine LÖsung ein, aber auch die ist nicht perfekt: Man zieht die Logdateien vie Samba/NFS/rsync auf einem extra dafür bereitgestellten Server. Dort werden nur die statistken erstellt und nichts anderes gemacht. Vorteil ist, das es dort egal ist wie lange die Statiken brauchen um erstellt zu werden, es macht die Seite schließlich nicht langsamer. Macht dummerweise halt einen zusätzlichen Server und damit eine zusätzliche Maschine die administriert sein will.
rootsvr
Posts: 538
Joined: 2005-09-02 11:12
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by rootsvr »

ICh kenne das bei uns in der Firma das es dediziete Loghosts gibt auf die per syslog geschrieben wird.. die machen nichts anderes als Logfiles parsen
theomega
Userprojekt
Userprojekt
Posts: 696
Joined: 2003-01-27 14:36
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by theomega »

Hallo,
sind den hier im Forum keine Server-Admins unterwegs die mehr als ein paar kleine Seiten hosten? Ich mein es muss doch auch Leute hier geben die wesentlich größere Seiten betreiben. Was machen die den mit dem Logdateien? Werden die einfach nicht ausgewertet (imho macht es wikipedia so) oder wie?

Wäre um ein Paar Berichte von Leuten mit High-Traffic-Sites dankbar.

Gruß
TO
Roger Wilco
Posts: 5923
Joined: 2004-05-23 12:53
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by Roger Wilco »

Für richtig große Seiten und vielleicht auch mehrere große Seiten ist ein eigener Loghost, wie von rootsvr beschrieben, gängige Praxis. Es gibt sicherlich auch einige kommerzielle Lösungen, die schneller als AWStats oder Webalizer sind, allerdings sind mir da keine bekannt.
Ich denke auch, dass bei sehr großen Logdateien eher die Durchsatzrate der Festplatte als die CPU-Power das Nadelöhr ist.
me-myself-and-i
Posts: 21
Joined: 2006-05-08 13:34
 

Re: Alternativen zu Awstats bei sehr hohen Zugriffszahlen

Post by me-myself-and-i »

also grundsätzlich würde ich sagen einen dedizierten loghost ... der kann ja auch gleichzeitig syslog-host für die anderen kisten sein ...

die kiste wird über nen eigenen switch eingebunden an dem die server mit einer zusätzliche nwk hängen. alle 5 minuten eine auswertung fahren will mir persönlich nicht so ganz einleuchten, aber ich kenne ja kunden ;)

ich selbst habe ne seite mit ~ 100k uv's, der lighty ist so eingestellt das für diesen vhost nur das nötigste gelogged wird und es sind nur ~ 400MB logfile ... awstats läuft einmal am tag und braucht dafür knapp 15 minunten ... ohne dns resolving, das habe ich nach den ersten versuchen abgestellt.

das problem bei vielen countern ist einfach das die nicht für high-traffic seiten ausgelegt sind, bzw. sich die autoren darüber keine gedanken gemacht haben ...

wenn dein kunde wirklich "nearly" live statistiken haben will, dann sollte ein eigener host dafür her.
als "fertig" lösung mit vielen netten "features" ist da noch clicktracks zu nennen, das macht dinge die fürs marketing interessant sind (und für die geschäftsführung) ... aber da brauchst du eine kiste, die den tag über nichts anderes macht ...