Ich kämpfe derzeit mit massivsten Server-Abstürzen ... Das ganze aber so, dass keinerlei Meldungen in den Logfiles auftauchen und ausschließlich ein Hard-Reset funktioniert ...
Das Rechenzentrum hatte während dem Crash den Monitor angeschlossen - schwarzes Bild ... Reset, Server wieder back online.
Möglichkeit 1: Kernel ...
Das Problem trat mit 2.6.18.1 das erste Mal auf ... danach ein Upgrade auf 2.6.19 ... Da hielt der Kernel keine 5 Stunden - Crash mit Kernel "BUG" in "mm/slab.c" (Report ist raus) ... OK, dann Downgrade auf 2.6.18.6 ... Mittwoch dann 3 Crashs binnen 12 Stunden, nach dem 2. Crash ein Hardware-Check des RZ ... RAM 1a, Netzteil (laut Spannungsmessungen) auch 1a ... Festplatten sind im wöchentlichen Smart-Check auch fehlerfrei gewesen ...
Jedoch fällt mir folgender Output von lm_sensors auf:
Code: Select all
w83627hf-isa-0c00
Adapter: ISA adapter
VCore 1: +1.71 V (min = +1.66 V, max = +1.84 V)
VCore 2: +1.71 V (min = +1.66 V, max = +1.84 V)
+3.3V: +3.31 V (min = +3.14 V, max = +3.47 V)
+5V: +4.95 V (min = +4.76 V, max = +5.24 V)
+12V: +9.06 V (min = +10.82 V, max = +13.19 V) ALARM
-12V: -12.69 V (min = -13.18 V, max = -10.80 V)
-5V: +0.08 V (min = -5.25 V, max = -4.75 V) ALARM
V5SB: +5.35 V (min = +4.76 V, max = +5.24 V) ALARM
VBat: +0.16 V (min = +2.40 V, max = +3.60 V) ALARM
fan1: 4821 RPM (min = 3308 RPM, div = 2)
fan2: 0 RPM (min = 4218 RPM, div = 2) ALARM
fan3: 0 RPM (min = 17763 RPM, div = 2) ALARM
temp1: +77°C (high = +9°C, hyst = +52°C) sensor = thermistor ALARM
temp2: +77.0°C (high = +80°C, hyst = +75°C) sensor = thermistor
temp3: +75.5°C (high = +80°C, hyst = +75°C) sensor = thermistor
vid: +1.750 V (VRM Version 9.0)
Dass ein Defekt irgendeiner Art vorliegt, ist klar ... Aber in welcher Komponente?
Derzeit läuft ein 2.6.18.1er, der gestern bisschen über 24 Stunden lief ... dann heute morgen um 05:20 ein Crash (Reset übers Handy), dann nochmal um 08:26 (wieder das gleiche) ...
Wenn die Daten von lm-sensors als zuverlässig anzusehen sind - dann erledigt sich die Diskussion, dann ist ein neues Netzteil fällig ...
Bin derzeit mitm Latein am Ende ... Dauer-Reset ist keine Lösung ... Ich hab noch anderes zu tun, als auf Servermonitoring-SMS zu warten ...
Anton