Robots nur zu bestimmten Zeiten?
Robots nur zu bestimmten Zeiten?
Die Frage ist zwar nicht exakt etwas zu Webservern, aber hier passt sie denke ich am besten.
Ich habe mich die letzten Tage mit robots.txt, dem Vorgehen von Spidern und mit dem Thema Suchmaschinen Ranking allgemein beschäftigt.
Allerdings kam da immer wieder die selbe Frage auf, und ich wunderte mich immer wieder, warum diese für mich so offensichtliche Sache eigentlich nirgends diskutiert, geschweige denn erläutert wird:
Kann man Spider nicht irgendwie dazu bringen, nur zu bestimmten Zeiten eine Seite aufzusuchen?
Praktisch sowas, dass ich in der robots.txt (oder sonst wo eben) eine Anweisung eintrage: "Du darfst diese Seite nur zwischen 4:30 Uhr GTM und 7:00 Uhr GMT spidern". Damit könnte man verhindern, dass ein Bot im schlimmsten Fall den ganzen Server lahm legt, weil er genau zu einer High Traffic Zeit mit seinen zahllosen Instanzen z.B. ein großes Forum indizieren will.
Kennt da jemand eine entsprechende Lösung?
Ich habe mich die letzten Tage mit robots.txt, dem Vorgehen von Spidern und mit dem Thema Suchmaschinen Ranking allgemein beschäftigt.
Allerdings kam da immer wieder die selbe Frage auf, und ich wunderte mich immer wieder, warum diese für mich so offensichtliche Sache eigentlich nirgends diskutiert, geschweige denn erläutert wird:
Kann man Spider nicht irgendwie dazu bringen, nur zu bestimmten Zeiten eine Seite aufzusuchen?
Praktisch sowas, dass ich in der robots.txt (oder sonst wo eben) eine Anweisung eintrage: "Du darfst diese Seite nur zwischen 4:30 Uhr GTM und 7:00 Uhr GMT spidern". Damit könnte man verhindern, dass ein Bot im schlimmsten Fall den ganzen Server lahm legt, weil er genau zu einer High Traffic Zeit mit seinen zahllosen Instanzen z.B. ein großes Forum indizieren will.
Kennt da jemand eine entsprechende Lösung?
Re: Robots nur zu bestimmten Zeiten?
Die robots.txt per CGI erzeugen - das einfachste, aber evtl. geht so etwas auch direkt mit dem Apache2, da sind dann aber die Cracks gefragt ;-)
flo.
flo.
Re: Robots nur zu bestimmten Zeiten?
Du meinst, ich sollte die robots.txt abhängig von der Uhreit erzeugen lassen, und nur zwischen 4:30 Uhr und 7:00 Uhr iat das Forum Verzeichnis NICHT auf "disallow"?
Ich glaube nicht, dass das funktioniert.
Wenn ein Spiuder auf eine robots.txt trifft, in der ihm ein bestimmtes Verzecihnis disallowed wird, dann löscht er eventuell vorher gemachte Einträge ja aus dem Index.
Und das soll ja bestimmt nicht passieren. :)
Ich glaube nicht, dass das funktioniert.
Wenn ein Spiuder auf eine robots.txt trifft, in der ihm ein bestimmtes Verzecihnis disallowed wird, dann löscht er eventuell vorher gemachte Einträge ja aus dem Index.
Und das soll ja bestimmt nicht passieren. :)
Re: Robots nur zu bestimmten Zeiten?
Ich habe schon verstanden, daß die Indizierung Dir wichtig ist :-)Odysseus wrote:Wenn ein Spiuder auf eine robots.txt trifft, in der ihm ein bestimmtes Verzecihnis disallowed wird, dann löscht er eventuell vorher gemachte Einträge ja aus dem Index.
Das Verhalten der Spider ist in der Tat fraglich, aber ein Löschen bestehender Einträge halte ich nicht für wahrscheinlich - wäre aber auhc interessant zu wissen.
flo.
Re: Robots nur zu bestimmten Zeiten?
Hm, da bin ich mir eigentlich ziemlich sicher.
Ich hatte vor ca. 4 Monaten mal ein paar Tage lang mein Forum für Spiders "offen". NAch einigen Tagen gab es etliche Google Indizierungen, aber leider hat die zusätzliuche Last durch die zahllosen Spider meinen Server ständig "gefressen". Ich hab es dann mal wieder abgestellt, in dem Wissen, dass ja einiges schon indiziert wurde und ich mir somit Zeit verschaffte, über eine Aufrüstung meines Servers nachdenken zu können. ;)
Allerdings war nach 1 Monat dann wieder nix mehr im Google Index zu finden. Ich schob es darauf, dass der Spider bei einem "disallow" eben bereits indizierte Sachen nachträglich wieder löscht, um eben mit der Anweisung des Webmasters konform zu gehen. Ich meine auch, entsprechendes auf meiner Suche gelesen zu haben.
Hm. Mittlerweile glaube ich nicht mehr wirklich an eine Lösung. :)
Vielleicht richte ich meine Robots.txt einfach so ein, dass nur das Archiv des Forums (ist ein vBulletin) gespidert werden darf. Allerdings weis ich noch nicht so recht, ob das ne gute Idee ist.
Ich hatte vor ca. 4 Monaten mal ein paar Tage lang mein Forum für Spiders "offen". NAch einigen Tagen gab es etliche Google Indizierungen, aber leider hat die zusätzliuche Last durch die zahllosen Spider meinen Server ständig "gefressen". Ich hab es dann mal wieder abgestellt, in dem Wissen, dass ja einiges schon indiziert wurde und ich mir somit Zeit verschaffte, über eine Aufrüstung meines Servers nachdenken zu können. ;)
Allerdings war nach 1 Monat dann wieder nix mehr im Google Index zu finden. Ich schob es darauf, dass der Spider bei einem "disallow" eben bereits indizierte Sachen nachträglich wieder löscht, um eben mit der Anweisung des Webmasters konform zu gehen. Ich meine auch, entsprechendes auf meiner Suche gelesen zu haben.
Hm. Mittlerweile glaube ich nicht mehr wirklich an eine Lösung. :)
Vielleicht richte ich meine Robots.txt einfach so ein, dass nur das Archiv des Forums (ist ein vBulletin) gespidert werden darf. Allerdings weis ich noch nicht so recht, ob das ne gute Idee ist.
Re: Robots nur zu bestimmten Zeiten?
Man kann einige Spider, unter Anderem Google und MS, per robots.txt ausbremsen:
Crawl-delay bestimmt hierbei die Anzahl Sekunden zwischen den einzelnen Zugriffen der Spider. Erfahrungsgemäss reichen 2 Sekunden völlig aus...
Code: Select all
User-agent: *
Disallow: /images
Crawl-delay: 2
PayPal.Me/JoeUser ● FreeBSD Remote Installation
Wings for Life ● Wings for Life World Run
„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
Wings for Life ● Wings for Life World Run
„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
Re: Robots nur zu bestimmten Zeiten?
Ich glaube, das lag eher daran, daß der revisit immer um die gleiche Zeit - also auch zu einer disallowed-Zeit stattfand. Irgendwann gilt dann die Seite als veraltet und wird wohl aus dem Index entfernt - Joes Lösung ist wohl das Optimum ...
flo.
flo.
Re: Robots nur zu bestimmten Zeiten?
Hallo,Joe User wrote: Crawl-delay bestimmt hierbei die Anzahl Sekunden zwischen den einzelnen Zugriffen der Spider. Erfahrungsgemäss reichen 2 Sekunden völlig aus...
Crawl-delay ist ein (proprietary)geschützter Parameter und wird
nur von bestimmten "Bots" unterstützt (z.B. Msn, Yahoo während
Google disen Parameter nicht unterstützt). Das macht den Befehl
daher nur begrenzt nützlich.
Für ein wirklich guten Umgang mit den "Bots"(egal welcher Art) kommst
Du mit der robot.txt alleine nicht aus. Der Slurp(Yahoo) "cached"
z.B. deine Seiten(kann man natürlich auch verbieten) und unterstützt
Kompression, während andere "Bots" wiederum anders agieren.
Da wirst Du auf jeden Fall zeit investieren und dir selber
was stricken müssen(mod_perl wäre hier zu empfehlen).
Alternativ kannst du dich auch bei dem Googlesupport melden ;)
http://www.google.com/webmasters/bot.html#fast
Re: Robots nur zu bestimmten Zeiten?
Nichts anderes hat Joe User gesagt ... proprietary sagt auch eher aus, daß der Begriff eine Eigenheit ist, kein Eigentum.dk79 wrote:Crawl-delay ist ein (proprietary)geschützter Parameter und wird
nur von bestimmten "Bots" unterstützt (z.B. Msn, Yahoo während
Google disen Parameter nicht unterstützt). Das macht den Befehl
daher nur begrenzt nützlich.
Nichtsdestotrotz und das ist mir auch erst eingefallen, als ich noch einma nachgedacht habe, ist die Zeitenbeschränkung sch..., weil man damit natürlich nicht berücksicht, wann man der Spider wieder die Möglichkeit gibt, auf die Seite zuzugreifen. Gut, Dein Server weiß daß, sieht es allerdings nicht ein, dies auch dem Robot mitzuteilen.
flo.
Re: Robots nur zu bestimmten Zeiten?
Hm. Ich hab das mit dem Crawl Delay mal eingebaut, damit wenigstens Slurp nicht mehr so viel "stört". Der hängt nämlich gerade bei mirim Forum herum und treibt die Serverlast ständig auf 5+ ... mal sehen, ob's was hilft. :)
Re: Robots nur zu bestimmten Zeiten?
Helfen wird es erst, wenn der Spider die robots.txt in seinem Cache erneuert, was durchaus ein paar Tage/Wochen dauern kann...
PayPal.Me/JoeUser ● FreeBSD Remote Installation
Wings for Life ● Wings for Life World Run
„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
Wings for Life ● Wings for Life World Run
„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
Re: Robots nur zu bestimmten Zeiten?
Soweit ich weis wird die robots.txt kurz vor jedem robot durchgang erneuert.
