Page 1 of 1

Lösung gegen Bots

Posted: 2011-03-31 19:01
by raid
Hallo in die Runde!

Hab mal eine kleine Frage, vielleicht habt ihr da ne Lösung. Also ich habe damals für unseren Verein ein Wordpress Blog eingerichtet, wo ich schon weitestgehend auf Plugins verzichtet habe. Nun sind da über die Jahre einige Beiträge zusammen gekommen und seit einigen Monaten kommen so komische Bots a la Spinn3r Aggregator oder dieser neue SiteBot.

Alle haben eins gemeinsam, die bauen meiner Ansicht nach mehrere Connections zur gleichen Zeit auf und dann rasseln die über die Seite drüber, dass ist absolut unnormal. Die Bots gehen auf die Seite und dann auf einen Schlag laden bzw. spidern die sämtliche Links die es nur irgendwie gibt auf einmal, also zur gleichen Zeit und der Server frisst sich dann fest, wenn man Glück hat, bekommt man einen apache2 restart hin.

Der Server hat ein Core2Duo glaub mit 2x 1,8 GHz und 2 GB RAM, eigentlich total ausreichend, aber eben nicht wenn die Bots kommen.

Hat jemand ne Idee, wie man sowas am besten einbremsen kann? mod_evasive wollte ich mir mal angucken, aber eigentlich wäre mir irgend eine andere Lösung lieber.

Re: Lösung gegen Bots

Posted: 2011-03-31 19:09
by rudelgurke
Vielleicht mod_security - dann bekommen Bots einen 4xx oder 5xx und belästigen PHP nicht mehr mit diversen Abfragen.

Re: Lösung gegen Bots

Posted: 2011-03-31 19:45
by daemotron
Wenn die User Agents immer gleich oder ähnlich aussehen, wäre die "billigste" Lösung eine Kombination aus mod_setenvif und mod_authz_host (untested):

Code: Select all

SetEnvIfNoCase User-Agent "^Spinn3r" muss_draussenbleiben
SetEnvIfNoCase User-Agent "^SiteBot" muss_draussenbleiben
#... weitere Bots, die rausfliegen sollen
<Directory /mein/blog>
  Order Deny,Allow
  Deny env=muss_draussenbleiben
</Directory>
HTH

Re: Lösung gegen Bots

Posted: 2011-03-31 20:36
by Joe User
Akismet gegen Spam allgemein und http://www.flameeyes.eu/projects/modsec gegen bösartige User-Agents und Co.

Re: Lösung gegen Bots

Posted: 2011-04-01 09:00
by raid
Danke, also was ich dahingehend sehe, dass sich offenbar in den letzten Monaten sehr viele junge Startups angespornt gefühlt haben, eine Konkurrenz Suchmaschine zu Google oder was auch immer aufzubauen und da entstehen eben immer mehr, wo die Spider dann nicht wirklich ausgereift sind.

Ein anderer Punkt sind die Bots, die Spammer die diese lustigen Kommentare posten, die müssen irgend ne komische Software haben, denn als (Fake??) User-Agent sind das immer Windows 98 PCs mit IE6, die rufen auch sämtliche Links einer Seite auf einmal auf und erzeugen somit eine wahnsinnige Load. Einen Tag später kommen dann Spam-Kommentare von der gleichen IP-Adresse, die natürlich von Akismet sofort gefiltert werden.

Die robots.txt wird leider von vielen mißachtet, grundsätzlich kann man bekannte Bots bzw. Spider blocken, aber Probleme machen ja immer die neuen Spider/Bots die unausgereift sind und der Meinung sind alles auf einen Schlag zu spidern und dahingehend wollte ich eben was machen.

ModSecurity werde ich mir noch mal ansehen, hatte ich damals schon mal getestet, da gabs viel Ärger, denn einige Software läuft dann nicht mehr und ich glaub, dass bedarf einiges an Arbeit, bis man da die optimale Konfiguration raus hat zwischen Sicherheit und Funktionalität.