Danach ging nichts mehr. Ich machte ein Hardware Reset, dann lief alles wieder OK.
S&P RootStart (Root Server)
SuSE 9.3 Linux Kernel 2.6.17.5-060712a
In den übrigen Logfiles entdeckte ich nichts ausssergewöhnliches, ausser dass von diesem Zeitpunkt an keine Einträge mehr standen.
Da ich erst vor einer halben Stunde darauf aufmeksam gemacht wurde, hatte ich noch keine Zeit zum googeln (wird nachgeholt), und falls jemand weiss, wo hier der Fehler liegt, wäre ich für jeden Tip dankbar.
Gruss, danu
Ja, ist wohl so oder so schwierig zu dieser seltenen Kernelmeldung einen Kontext zu finden. Googeln hat nicht viel mehr gebracht, als was man aus dieser Kernelmeldung schliessen könnte: ev. ein Bug und/oder ein Problem mit dem Hardwaremanagement. Das boot.msg Logfile wurde beim Hardwarerebooten natürlich überschrieben. Hatte keine andere Wahl. Die Kiste war völlig weg und es musste schnell was passieren. Logo hätte ja zuerst das Recovery System und .. und, aber dazu hatte ich keine Nerven mehr :roll:
Habe jedenfalls powersaved und hwscan deaktiviert. Wenn jetzt die Kiste mal 2 Wochen anstandslos durchläuft, wäre das wohl ein einmaliger Kernel Oops gewesen. @CC das war wirklich der ganze Oops, mehr stand da nicht drin, oder verstehe ich etwas falsch ? :oops:
Hier noch ein paar Daten der Kiste
Intel Pentium 4 CPU 2.80GHz
Memory 1GB
SuSE 9.3 Linux
Kernel 2.6.17.5-060712a
Plesk 8.0.1
Webmin 1.290
Qmail
Apache 2.0.53 mit mod_security und mod_evasive
rkhunter
2 Kunden mit (chrooted) shell access
41 Kunden
119 Domains
Hoffentlich/scheinbar hat sich dieses Problem erledigt und taucht niemals wieder auf.
Ja ich hätte auch gerne mehr erfahren. Aber die Kiste war ja total weg und konnte keine Logs mehr schreiben. Dieser Oops stand im /var/log/messages ganz am Schluss und voran standen die üblichen Logs betreffend mail, logins, etc.
Ich habe mich jetzt mal dran gemacht, das ganze Loging besser und übersichtlicher zu organisieren. Ich habe mich jetzt lange genug genervt. Logs, die nicht so von Bedeutung sind füllen MB um MB und bei anderen Prozessen, über die ich auch gerne Bescheid wüsste, ist nichts drinn.
Über die Hardware Info von Yast bin ich noch auf folgendes gestossen
<6>EXT3 FS on sda1, internal journal
<6>device-mapper: 4.6.0-ioctl (2006-02-17) initialised: dm-devel@redhat.com
<5>XFS mounting filesystem sda5
<7>Ending clean XFS mount for filesystem: sda5
<5>XFS mounting filesystem sda6
<7>Ending clean XFS mount for filesystem: sda6
<5>XFS mounting filesystem sda7
<7>Ending clean XFS mount for filesystem: sda7
<5>XFS mounting filesystem sda8
<7>Ending clean XFS mount for filesystem: sda8
<6>e100: eth0: e100_watchdog: link up, 100Mbps, full-duplex
<5>sd 0:0:0:0: Attached scsi generic sg0 type 0
<4>program dmraid is using a deprecated SCSI ioctl, please convert it to SG_IO
<4>program dmraid is using a deprecated SCSI ioctl, please convert it to SG_IO
<4>program dmraid is using a deprecated SCSI ioctl, please convert it to SG_IO
<4>program dmraid is using a deprecated SCSI ioctl, please convert it to SG_IO
.. die letzten 4 Zeilen wiederholen sich ca. 50 mal.
Gresecurity berichtete von einem möglichen (..?) Vorzeichenproblem in der generischen SCSI ioctl Behandlung. Übergrosse NFS Direct I/O Anfragen konnten zu einem lokalen DoS führten.
Habe mir mal die Linux SCSI Programmierung HOWTO runtergeladen.
Der Vollständigkeit halber hier noch die Lösung des Problems:
Nachdem der freundliche Support bei S&P mit "xfs_repair" die Partition wieder mountfähig gemacht hatte, bestand weiterhin eine Inkonsistenz derselben (des öfteren Dateizugriffsfehler, Kiste schmierte weiter im 2-Stundentakt ab). Auch ein mehrmaliger "fsck" änderte an diesem Zustand nichts.
Als letzte Lösungmöglichkeit setzte ich diese Partition neu auf, spielte die Daten zurück und startete die Kiste neu. Seither läufts wie geschmiert, als ob plötzlich ein zusätzlicher Prozessor am Laufen wäre.
Wir hatten neulich die selben Probleme, als wir in der dom0 eines SATA Servers unter debian/sarge die smartmontools zur Überwachung der Platten installierten:
Die Maschine lief keine 24 Std durch.
Also flux die smartmontools runtergeschmissen und sämtliche domUs laufen wieder stabil.