Robots nur zu bestimmten Zeiten?

Apache, Lighttpd, nginx, Cherokee
Post Reply
odysseus
Posts: 115
Joined: 2003-02-07 10:21
 

Robots nur zu bestimmten Zeiten?

Post by odysseus »

Die Frage ist zwar nicht exakt etwas zu Webservern, aber hier passt sie denke ich am besten.
Ich habe mich die letzten Tage mit robots.txt, dem Vorgehen von Spidern und mit dem Thema Suchmaschinen Ranking allgemein beschäftigt.
Allerdings kam da immer wieder die selbe Frage auf, und ich wunderte mich immer wieder, warum diese für mich so offensichtliche Sache eigentlich nirgends diskutiert, geschweige denn erläutert wird:

Kann man Spider nicht irgendwie dazu bringen, nur zu bestimmten Zeiten eine Seite aufzusuchen?

Praktisch sowas, dass ich in der robots.txt (oder sonst wo eben) eine Anweisung eintrage: "Du darfst diese Seite nur zwischen 4:30 Uhr GTM und 7:00 Uhr GMT spidern". Damit könnte man verhindern, dass ein Bot im schlimmsten Fall den ganzen Server lahm legt, weil er genau zu einer High Traffic Zeit mit seinen zahllosen Instanzen z.B. ein großes Forum indizieren will.

Kennt da jemand eine entsprechende Lösung?
flo
Posts: 2223
Joined: 2002-07-28 13:02
Location: Berlin
 

Re: Robots nur zu bestimmten Zeiten?

Post by flo »

Die robots.txt per CGI erzeugen - das einfachste, aber evtl. geht so etwas auch direkt mit dem Apache2, da sind dann aber die Cracks gefragt ;-)

flo.
odysseus
Posts: 115
Joined: 2003-02-07 10:21
 

Re: Robots nur zu bestimmten Zeiten?

Post by odysseus »

Du meinst, ich sollte die robots.txt abhängig von der Uhreit erzeugen lassen, und nur zwischen 4:30 Uhr und 7:00 Uhr iat das Forum Verzeichnis NICHT auf "disallow"?

Ich glaube nicht, dass das funktioniert.
Wenn ein Spiuder auf eine robots.txt trifft, in der ihm ein bestimmtes Verzecihnis disallowed wird, dann löscht er eventuell vorher gemachte Einträge ja aus dem Index.

Und das soll ja bestimmt nicht passieren. :)
flo
Posts: 2223
Joined: 2002-07-28 13:02
Location: Berlin
 

Re: Robots nur zu bestimmten Zeiten?

Post by flo »

Odysseus wrote:Wenn ein Spiuder auf eine robots.txt trifft, in der ihm ein bestimmtes Verzecihnis disallowed wird, dann löscht er eventuell vorher gemachte Einträge ja aus dem Index.
Ich habe schon verstanden, daß die Indizierung Dir wichtig ist :-)

Das Verhalten der Spider ist in der Tat fraglich, aber ein Löschen bestehender Einträge halte ich nicht für wahrscheinlich - wäre aber auhc interessant zu wissen.

flo.
odysseus
Posts: 115
Joined: 2003-02-07 10:21
 

Re: Robots nur zu bestimmten Zeiten?

Post by odysseus »

Hm, da bin ich mir eigentlich ziemlich sicher.
Ich hatte vor ca. 4 Monaten mal ein paar Tage lang mein Forum für Spiders "offen". NAch einigen Tagen gab es etliche Google Indizierungen, aber leider hat die zusätzliuche Last durch die zahllosen Spider meinen Server ständig "gefressen". Ich hab es dann mal wieder abgestellt, in dem Wissen, dass ja einiges schon indiziert wurde und ich mir somit Zeit verschaffte, über eine Aufrüstung meines Servers nachdenken zu können. ;)

Allerdings war nach 1 Monat dann wieder nix mehr im Google Index zu finden. Ich schob es darauf, dass der Spider bei einem "disallow" eben bereits indizierte Sachen nachträglich wieder löscht, um eben mit der Anweisung des Webmasters konform zu gehen. Ich meine auch, entsprechendes auf meiner Suche gelesen zu haben.



Hm. Mittlerweile glaube ich nicht mehr wirklich an eine Lösung. :)
Vielleicht richte ich meine Robots.txt einfach so ein, dass nur das Archiv des Forums (ist ein vBulletin) gespidert werden darf. Allerdings weis ich noch nicht so recht, ob das ne gute Idee ist.
User avatar
Joe User
Project Manager
Project Manager
Posts: 11191
Joined: 2003-02-27 01:00
Location: Hamburg
Contact:
 

Re: Robots nur zu bestimmten Zeiten?

Post by Joe User »

Man kann einige Spider, unter Anderem Google und MS, per robots.txt ausbremsen:

Code: Select all

User-agent: *
Disallow: /images

Crawl-delay: 2
Crawl-delay bestimmt hierbei die Anzahl Sekunden zwischen den einzelnen Zugriffen der Spider. Erfahrungsgemäss reichen 2 Sekunden völlig aus...
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
flo
Posts: 2223
Joined: 2002-07-28 13:02
Location: Berlin
 

Re: Robots nur zu bestimmten Zeiten?

Post by flo »

Ich glaube, das lag eher daran, daß der revisit immer um die gleiche Zeit - also auch zu einer disallowed-Zeit stattfand. Irgendwann gilt dann die Seite als veraltet und wird wohl aus dem Index entfernt - Joes Lösung ist wohl das Optimum ...

flo.
dk79
Posts: 13
Joined: 2005-10-22 01:08
 

Re: Robots nur zu bestimmten Zeiten?

Post by dk79 »

Joe User wrote: Crawl-delay bestimmt hierbei die Anzahl Sekunden zwischen den einzelnen Zugriffen der Spider. Erfahrungsgemäss reichen 2 Sekunden völlig aus...
Hallo,

Crawl-delay ist ein (proprietary)geschützter Parameter und wird
nur von bestimmten "Bots" unterstützt (z.B. Msn, Yahoo während
Google disen Parameter nicht unterstützt). Das macht den Befehl
daher nur begrenzt nützlich.

Für ein wirklich guten Umgang mit den "Bots"(egal welcher Art) kommst
Du mit der robot.txt alleine nicht aus. Der Slurp(Yahoo) "cached"
z.B. deine Seiten(kann man natürlich auch verbieten) und unterstützt
Kompression, während andere "Bots" wiederum anders agieren.

Da wirst Du auf jeden Fall zeit investieren und dir selber
was stricken müssen(mod_perl wäre hier zu empfehlen).
Alternativ kannst du dich auch bei dem Googlesupport melden ;)
http://www.google.com/webmasters/bot.html#fast
flo
Posts: 2223
Joined: 2002-07-28 13:02
Location: Berlin
 

Re: Robots nur zu bestimmten Zeiten?

Post by flo »

dk79 wrote:Crawl-delay ist ein (proprietary)geschützter Parameter und wird
nur von bestimmten "Bots" unterstützt (z.B. Msn, Yahoo während
Google disen Parameter nicht unterstützt). Das macht den Befehl
daher nur begrenzt nützlich.
Nichts anderes hat Joe User gesagt ... proprietary sagt auch eher aus, daß der Begriff eine Eigenheit ist, kein Eigentum.

Nichtsdestotrotz und das ist mir auch erst eingefallen, als ich noch einma nachgedacht habe, ist die Zeitenbeschränkung sch..., weil man damit natürlich nicht berücksicht, wann man der Spider wieder die Möglichkeit gibt, auf die Seite zuzugreifen. Gut, Dein Server weiß daß, sieht es allerdings nicht ein, dies auch dem Robot mitzuteilen.

flo.
odysseus
Posts: 115
Joined: 2003-02-07 10:21
 

Re: Robots nur zu bestimmten Zeiten?

Post by odysseus »

Hm. Ich hab das mit dem Crawl Delay mal eingebaut, damit wenigstens Slurp nicht mehr so viel "stört". Der hängt nämlich gerade bei mirim Forum herum und treibt die Serverlast ständig auf 5+ ... mal sehen, ob's was hilft. :)
User avatar
Joe User
Project Manager
Project Manager
Posts: 11191
Joined: 2003-02-27 01:00
Location: Hamburg
Contact:
 

Re: Robots nur zu bestimmten Zeiten?

Post by Joe User »

Helfen wird es erst, wenn der Spider die robots.txt in seinem Cache erneuert, was durchaus ein paar Tage/Wochen dauern kann...
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
svenk
Posts: 36
Joined: 2003-03-12 09:19
 

Re: Robots nur zu bestimmten Zeiten?

Post by svenk »

Soweit ich weis wird die robots.txt kurz vor jedem robot durchgang erneuert.
Post Reply