Lösung gegen Bots

Apache, Lighttpd, nginx, Cherokee
raid
Posts: 119
Joined: 2003-08-01 09:32

Lösung gegen Bots

Post by raid » 2011-03-31 19:01

Hallo in die Runde!

Hab mal eine kleine Frage, vielleicht habt ihr da ne Lösung. Also ich habe damals für unseren Verein ein Wordpress Blog eingerichtet, wo ich schon weitestgehend auf Plugins verzichtet habe. Nun sind da über die Jahre einige Beiträge zusammen gekommen und seit einigen Monaten kommen so komische Bots a la Spinn3r Aggregator oder dieser neue SiteBot.

Alle haben eins gemeinsam, die bauen meiner Ansicht nach mehrere Connections zur gleichen Zeit auf und dann rasseln die über die Seite drüber, dass ist absolut unnormal. Die Bots gehen auf die Seite und dann auf einen Schlag laden bzw. spidern die sämtliche Links die es nur irgendwie gibt auf einmal, also zur gleichen Zeit und der Server frisst sich dann fest, wenn man Glück hat, bekommt man einen apache2 restart hin.

Der Server hat ein Core2Duo glaub mit 2x 1,8 GHz und 2 GB RAM, eigentlich total ausreichend, aber eben nicht wenn die Bots kommen.

Hat jemand ne Idee, wie man sowas am besten einbremsen kann? mod_evasive wollte ich mir mal angucken, aber eigentlich wäre mir irgend eine andere Lösung lieber.

User avatar
rudelgurke
Systemtester
Systemtester
Posts: 407
Joined: 2008-03-12 05:36

Re: Lösung gegen Bots

Post by rudelgurke » 2011-03-31 19:09

Vielleicht mod_security - dann bekommen Bots einen 4xx oder 5xx und belästigen PHP nicht mehr mit diversen Abfragen.

User avatar
daemotron
Administrator
Administrator
Posts: 2800
Joined: 2004-01-21 17:44

Re: Lösung gegen Bots

Post by daemotron » 2011-03-31 19:45

Wenn die User Agents immer gleich oder ähnlich aussehen, wäre die "billigste" Lösung eine Kombination aus mod_setenvif und mod_authz_host (untested):

Code: Select all

SetEnvIfNoCase User-Agent "^Spinn3r" muss_draussenbleiben
SetEnvIfNoCase User-Agent "^SiteBot" muss_draussenbleiben
#... weitere Bots, die rausfliegen sollen
<Directory /mein/blog>
  Order Deny,Allow
  Deny env=muss_draussenbleiben
</Directory>

HTH
Last edited by daemotron on 2011-03-31 19:46, edited 1 time in total.
“Some humans would do anything to see if it was possible to do it. If you put a large switch in some cave somewhere, with a sign on it saying 'End-of-the-World Switch. PLEASE DO NOT TOUCH', the paint wouldn't even have time to dry.” — Terry Pratchett, Thief of Time

User avatar
Joe User
Project Manager
Project Manager
Posts: 11599
Joined: 2003-02-27 01:00
Location: Hamburg

Re: Lösung gegen Bots

Post by Joe User » 2011-03-31 20:36

Akismet gegen Spam allgemein und http://www.flameeyes.eu/projects/modsec gegen bösartige User-Agents und Co.
Last edited by Joe User on 2011-03-31 20:37, edited 1 time in total.
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.

raid
Posts: 119
Joined: 2003-08-01 09:32

Re: Lösung gegen Bots

Post by raid » 2011-04-01 09:00

Danke, also was ich dahingehend sehe, dass sich offenbar in den letzten Monaten sehr viele junge Startups angespornt gefühlt haben, eine Konkurrenz Suchmaschine zu Google oder was auch immer aufzubauen und da entstehen eben immer mehr, wo die Spider dann nicht wirklich ausgereift sind.

Ein anderer Punkt sind die Bots, die Spammer die diese lustigen Kommentare posten, die müssen irgend ne komische Software haben, denn als (Fake??) User-Agent sind das immer Windows 98 PCs mit IE6, die rufen auch sämtliche Links einer Seite auf einmal auf und erzeugen somit eine wahnsinnige Load. Einen Tag später kommen dann Spam-Kommentare von der gleichen IP-Adresse, die natürlich von Akismet sofort gefiltert werden.

Die robots.txt wird leider von vielen mißachtet, grundsätzlich kann man bekannte Bots bzw. Spider blocken, aber Probleme machen ja immer die neuen Spider/Bots die unausgereift sind und der Meinung sind alles auf einen Schlag zu spidern und dahingehend wollte ich eben was machen.

ModSecurity werde ich mir noch mal ansehen, hatte ich damals schon mal getestet, da gabs viel Ärger, denn einige Software läuft dann nicht mehr und ich glaub, dass bedarf einiges an Arbeit, bis man da die optimale Konfiguration raus hat zwischen Sicherheit und Funktionalität.