Page 1 of 1

Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 12:42
by antondollmaier
Hallo zusammen,


Ich kämpfe derzeit mit massivsten Server-Abstürzen ... Das ganze aber so, dass keinerlei Meldungen in den Logfiles auftauchen und ausschließlich ein Hard-Reset funktioniert ...


Das Rechenzentrum hatte während dem Crash den Monitor angeschlossen - schwarzes Bild ... Reset, Server wieder back online.

Möglichkeit 1: Kernel ...

Das Problem trat mit 2.6.18.1 das erste Mal auf ... danach ein Upgrade auf 2.6.19 ... Da hielt der Kernel keine 5 Stunden - Crash mit Kernel "BUG" in "mm/slab.c" (Report ist raus) ... OK, dann Downgrade auf 2.6.18.6 ... Mittwoch dann 3 Crashs binnen 12 Stunden, nach dem 2. Crash ein Hardware-Check des RZ ... RAM 1a, Netzteil (laut Spannungsmessungen) auch 1a ... Festplatten sind im wöchentlichen Smart-Check auch fehlerfrei gewesen ...


Jedoch fällt mir folgender Output von lm_sensors auf:

Code: Select all

w83627hf-isa-0c00
Adapter: ISA adapter
VCore 1:   +1.71 V  (min =  +1.66 V, max =  +1.84 V)
VCore 2:   +1.71 V  (min =  +1.66 V, max =  +1.84 V)
+3.3V:     +3.31 V  (min =  +3.14 V, max =  +3.47 V)
+5V:       +4.95 V  (min =  +4.76 V, max =  +5.24 V)
+12V:      +9.06 V  (min = +10.82 V, max = +13.19 V)       ALARM
-12V:     -12.69 V  (min = -13.18 V, max = -10.80 V)
-5V:       +0.08 V  (min =  -5.25 V, max =  -4.75 V)       ALARM
V5SB:      +5.35 V  (min =  +4.76 V, max =  +5.24 V)       ALARM
VBat:      +0.16 V  (min =  +2.40 V, max =  +3.60 V)       ALARM
fan1:     4821 RPM  (min = 3308 RPM, div = 2)
fan2:        0 RPM  (min = 4218 RPM, div = 2)              ALARM
fan3:        0 RPM  (min = 17763 RPM, div = 2)              ALARM
temp1:       +77°C  (high =    +9°C, hyst =   +52°C)   sensor = thermistor   ALARM
temp2:     +77.0°C  (high =   +80°C, hyst =   +75°C)   sensor = thermistor
temp3:     +75.5°C  (high =   +80°C, hyst =   +75°C)   sensor = thermistor
vid:      +1.750 V  (VRM Version 9.0)
Das System ist ein Dual Athlon MP 2000+ auf einem Tyan Tiger MPX, 4x512MB DDR-RAM (PC2100 laut Handbuch vom Board maximal) sowie 2 Festplatten (Samsung/Maxtor) im Software-RAID1 ...


Dass ein Defekt irgendeiner Art vorliegt, ist klar ... Aber in welcher Komponente?

Derzeit läuft ein 2.6.18.1er, der gestern bisschen über 24 Stunden lief ... dann heute morgen um 05:20 ein Crash (Reset übers Handy), dann nochmal um 08:26 (wieder das gleiche) ...


Wenn die Daten von lm-sensors als zuverlässig anzusehen sind - dann erledigt sich die Diskussion, dann ist ein neues Netzteil fällig ...


Bin derzeit mitm Latein am Ende ... Dauer-Reset ist keine Lösung ... Ich hab noch anderes zu tun, als auf Servermonitoring-SMS zu warten ...


Anton

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 12:48
by Joe User
Ich hatte die gleichen Symptome gerade auf meiner Workstation: Das Netzteil schwankende bei mir auf den 12V und 5V Ausgängen und verursachte dadurch unregelmässige Hardwareaussetzer und Abstürze. Seit dem Wechsel des Netzteils habe ich Ruhe.

HTH

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 15:05
by aubergine
Ich glaube beim besten willen nicht das ein Techniker von denen das Teil aufgeschraubt hat und da das Netzteil nachgemessen hat...

Naja sei froh das nit zu viel Spannung raus kam :D

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 15:11
by antondollmaier
aubergine wrote:Ich glaube beim besten willen nicht das ein Techniker von denen das Teil aufgeschraubt hat und da das Netzteil nachgemessen hat...
Ich kenn die Techniker persönlich (RZ ist nicht so groß/noch neu), wenn der das also gesagt hat, dass er nachgemessen hat - dann hatters ...


Aber dass der Spannungsschwankungen messen konnte bezweifel ich ...


@Joe User: Danke! Und ob die Aussage hilft :)

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 15:32
by aubergine
Oh ja das war eine Verwechslung mit einem anderen Thread. Dachte der Server steht bei St****

Wenn er jeden Stromkreis gemessen hat, sollte eigentlich auch mit einem einfachst Messgerät feststellbar sein, dass der -5V Anschluß 0,08V bzw garnix hat.

Warum ich denke das da trotzdem was faul ist mit dem LM sensor, ist die Tatsache das der -5V überhaupt nicht nutzbar wäre und demzufolgen garnix funktionieren müsste. Je nachdem gegenüber welchem Potential man misst fehlen dann entweder 5V oder es sind eben 0,08 bzw. 0V sprich nada.

Naja wie auch immer Joe wird wie so oft Recht haben.

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 15:50
by daemotron
Hoffen wir für Dich, dass es das Netzteil ist und nicht einer der ElKos auf dem Mainboard... Was mich ein bisschen stutzig macht ist die Angabe zur Batteriespannung. Die sollte doch eigentlich unabhängig vom Netzteil i. O sein?

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 16:09
by flo
Ein Tyan-Board mit Dual-Athlon hab ich mir auch schon mal für die Workstation zuhause überlegt - aber es setzt ein absolut übles Geschoß von Netzteil voraus, soweit ich das noch im Kopf habe, da war irgendwas mit 30A auf der +5V-Schiene, und das haben die wenigsten Netzteile so spezifiziert - es funktioniert dann zwar im Testbetrieb, aber eben nicht stabil im Alltag, wenn von jetzt auf gleich mal eben 100% mehr Leistung kommen muß.

Tausch das Netzteil mal aus und nimm ein Markengerät mit guten Wirkungsgrad - da sind momentan ganz gute für erträglichen Preis auf dem Markt - in der Preisklasse ab 50 EUR sind auch alle gut dokumentiert, so daß da keine größeren Experimente mehr nötig sein sollten.

flo.

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 17:31
by oxygen
Mich machen die Werte auch etwas stuzig. Ich kann mir nicht vorstellen, dass einer Rechner ohne Spannung auf der -5V Leitung überhaupt startet. Die CPU Temperatur kommt mir auch etwas zu hoch vor. Naja, aber Schaden wird es sicher nicht,das Netzteil mal zu tauschen. Am besten gegen ein stärkeres bzw. ein qualitativ besseres.

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2006-12-31 18:53
by flo
Die Temperatuir kann man bei einem Athlon durchaus erreichen, wenn das Gehäuse nicht passt - oder eventuell das Netzteil schon so auf Last läuft, daß es das Gehäuse schon mit 50° vergewärmter Luft beglückt.

Re: Server-Abstürze, weil Netzteil defekt?

Posted: 2007-01-04 21:12
by antondollmaier
Das Netzteil wurde gestern nachmittag getauscht, seit dem keine Probleme (uptime: 1d, 4hr).


Schonmal Danke an alle! :)