Server-Abstürze, weil Netzteil defekt?

FreeBSD, Gentoo, openSUSE, CentOS, Ubuntu, Debian
antondollmaier
Posts: 485
Joined: 2004-03-30 10:06
 

Server-Abstürze, weil Netzteil defekt?

Post by antondollmaier »

Hallo zusammen,


Ich kämpfe derzeit mit massivsten Server-Abstürzen ... Das ganze aber so, dass keinerlei Meldungen in den Logfiles auftauchen und ausschließlich ein Hard-Reset funktioniert ...


Das Rechenzentrum hatte während dem Crash den Monitor angeschlossen - schwarzes Bild ... Reset, Server wieder back online.

Möglichkeit 1: Kernel ...

Das Problem trat mit 2.6.18.1 das erste Mal auf ... danach ein Upgrade auf 2.6.19 ... Da hielt der Kernel keine 5 Stunden - Crash mit Kernel "BUG" in "mm/slab.c" (Report ist raus) ... OK, dann Downgrade auf 2.6.18.6 ... Mittwoch dann 3 Crashs binnen 12 Stunden, nach dem 2. Crash ein Hardware-Check des RZ ... RAM 1a, Netzteil (laut Spannungsmessungen) auch 1a ... Festplatten sind im wöchentlichen Smart-Check auch fehlerfrei gewesen ...


Jedoch fällt mir folgender Output von lm_sensors auf:

Code: Select all

w83627hf-isa-0c00
Adapter: ISA adapter
VCore 1:   +1.71 V  (min =  +1.66 V, max =  +1.84 V)
VCore 2:   +1.71 V  (min =  +1.66 V, max =  +1.84 V)
+3.3V:     +3.31 V  (min =  +3.14 V, max =  +3.47 V)
+5V:       +4.95 V  (min =  +4.76 V, max =  +5.24 V)
+12V:      +9.06 V  (min = +10.82 V, max = +13.19 V)       ALARM
-12V:     -12.69 V  (min = -13.18 V, max = -10.80 V)
-5V:       +0.08 V  (min =  -5.25 V, max =  -4.75 V)       ALARM
V5SB:      +5.35 V  (min =  +4.76 V, max =  +5.24 V)       ALARM
VBat:      +0.16 V  (min =  +2.40 V, max =  +3.60 V)       ALARM
fan1:     4821 RPM  (min = 3308 RPM, div = 2)
fan2:        0 RPM  (min = 4218 RPM, div = 2)              ALARM
fan3:        0 RPM  (min = 17763 RPM, div = 2)              ALARM
temp1:       +77°C  (high =    +9°C, hyst =   +52°C)   sensor = thermistor   ALARM
temp2:     +77.0°C  (high =   +80°C, hyst =   +75°C)   sensor = thermistor
temp3:     +75.5°C  (high =   +80°C, hyst =   +75°C)   sensor = thermistor
vid:      +1.750 V  (VRM Version 9.0)
Das System ist ein Dual Athlon MP 2000+ auf einem Tyan Tiger MPX, 4x512MB DDR-RAM (PC2100 laut Handbuch vom Board maximal) sowie 2 Festplatten (Samsung/Maxtor) im Software-RAID1 ...


Dass ein Defekt irgendeiner Art vorliegt, ist klar ... Aber in welcher Komponente?

Derzeit läuft ein 2.6.18.1er, der gestern bisschen über 24 Stunden lief ... dann heute morgen um 05:20 ein Crash (Reset übers Handy), dann nochmal um 08:26 (wieder das gleiche) ...


Wenn die Daten von lm-sensors als zuverlässig anzusehen sind - dann erledigt sich die Diskussion, dann ist ein neues Netzteil fällig ...


Bin derzeit mitm Latein am Ende ... Dauer-Reset ist keine Lösung ... Ich hab noch anderes zu tun, als auf Servermonitoring-SMS zu warten ...


Anton
User avatar
Joe User
Project Manager
Project Manager
Posts: 11186
Joined: 2003-02-27 01:00
Location: Hamburg
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by Joe User »

Ich hatte die gleichen Symptome gerade auf meiner Workstation: Das Netzteil schwankende bei mir auf den 12V und 5V Ausgängen und verursachte dadurch unregelmässige Hardwareaussetzer und Abstürze. Seit dem Wechsel des Netzteils habe ich Ruhe.

HTH
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.
aubergine
Posts: 471
Joined: 2005-09-10 17:52
Location: Frankfurt am Main
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by aubergine »

Ich glaube beim besten willen nicht das ein Techniker von denen das Teil aufgeschraubt hat und da das Netzteil nachgemessen hat...

Naja sei froh das nit zu viel Spannung raus kam :D
antondollmaier
Posts: 485
Joined: 2004-03-30 10:06
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by antondollmaier »

aubergine wrote:Ich glaube beim besten willen nicht das ein Techniker von denen das Teil aufgeschraubt hat und da das Netzteil nachgemessen hat...
Ich kenn die Techniker persönlich (RZ ist nicht so groß/noch neu), wenn der das also gesagt hat, dass er nachgemessen hat - dann hatters ...


Aber dass der Spannungsschwankungen messen konnte bezweifel ich ...


@Joe User: Danke! Und ob die Aussage hilft :)
aubergine
Posts: 471
Joined: 2005-09-10 17:52
Location: Frankfurt am Main
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by aubergine »

Oh ja das war eine Verwechslung mit einem anderen Thread. Dachte der Server steht bei St****

Wenn er jeden Stromkreis gemessen hat, sollte eigentlich auch mit einem einfachst Messgerät feststellbar sein, dass der -5V Anschluß 0,08V bzw garnix hat.

Warum ich denke das da trotzdem was faul ist mit dem LM sensor, ist die Tatsache das der -5V überhaupt nicht nutzbar wäre und demzufolgen garnix funktionieren müsste. Je nachdem gegenüber welchem Potential man misst fehlen dann entweder 5V oder es sind eben 0,08 bzw. 0V sprich nada.

Naja wie auch immer Joe wird wie so oft Recht haben.
User avatar
daemotron
Administrator
Administrator
Posts: 2643
Joined: 2004-01-21 17:44
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by daemotron »

Hoffen wir für Dich, dass es das Netzteil ist und nicht einer der ElKos auf dem Mainboard... Was mich ein bisschen stutzig macht ist die Angabe zur Batteriespannung. Die sollte doch eigentlich unabhängig vom Netzteil i. O sein?
flo
Posts: 2223
Joined: 2002-07-28 13:02
Location: Berlin
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by flo »

Ein Tyan-Board mit Dual-Athlon hab ich mir auch schon mal für die Workstation zuhause überlegt - aber es setzt ein absolut übles Geschoß von Netzteil voraus, soweit ich das noch im Kopf habe, da war irgendwas mit 30A auf der +5V-Schiene, und das haben die wenigsten Netzteile so spezifiziert - es funktioniert dann zwar im Testbetrieb, aber eben nicht stabil im Alltag, wenn von jetzt auf gleich mal eben 100% mehr Leistung kommen muß.

Tausch das Netzteil mal aus und nimm ein Markengerät mit guten Wirkungsgrad - da sind momentan ganz gute für erträglichen Preis auf dem Markt - in der Preisklasse ab 50 EUR sind auch alle gut dokumentiert, so daß da keine größeren Experimente mehr nötig sein sollten.

flo.
oxygen
Posts: 2138
Joined: 2002-12-15 00:10
Location: Bergheim
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by oxygen »

Mich machen die Werte auch etwas stuzig. Ich kann mir nicht vorstellen, dass einer Rechner ohne Spannung auf der -5V Leitung überhaupt startet. Die CPU Temperatur kommt mir auch etwas zu hoch vor. Naja, aber Schaden wird es sicher nicht,das Netzteil mal zu tauschen. Am besten gegen ein stärkeres bzw. ein qualitativ besseres.
flo
Posts: 2223
Joined: 2002-07-28 13:02
Location: Berlin
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by flo »

Die Temperatuir kann man bei einem Athlon durchaus erreichen, wenn das Gehäuse nicht passt - oder eventuell das Netzteil schon so auf Last läuft, daß es das Gehäuse schon mit 50° vergewärmter Luft beglückt.
antondollmaier
Posts: 485
Joined: 2004-03-30 10:06
 

Re: Server-Abstürze, weil Netzteil defekt?

Post by antondollmaier »

Das Netzteil wurde gestern nachmittag getauscht, seit dem keine Probleme (uptime: 1d, 4hr).


Schonmal Danke an alle! :)