Server hat hin und wieder Ausfälle

Rund um die Sicherheit des Systems und die Applikationen
Post Reply
philippxp
Posts: 71
Joined: 2005-02-24 21:17
 

Server hat hin und wieder Ausfälle

Post by philippxp »

Hallo Leute,

also nun muss ich mich mal an euch wenden weil langsam weiß ich irgendwie auch nicht mehr weiter. Seit kurzem ist es so das mein Webserver immer mal steht also man kann ihn nicht mehr erreichen. Es fing am Anfang damit an das er einfach selber einen Restart gemacht hat. Hab mir dann die Log Dateien angeschaut aber auch nichts gefunden. Dann waren auf einmal bestimme Dienste nicht mehr vorhanden wie z.B. Apache ist abgestürzt, Courier bzw. Postfix waren weg. Nachdem man die Dienste neugestartet hatte lief auch alles wieder, bloß in den letzten Tag nimmt das ganze Überhand. Man kann es eigentlich recht gut unter munin sehen:

http://www.munin.apt-get.cc

Munin hört also richtig das aufzeichen auf. Hab schon in ein paar Foren gelesen das z.B. solche Fehler bei meinem Hoster (Alturo) hin und wieder vorkommen. Nun ist halt die Frage ob es nicht ein Festplatten defekt ist, weil gestern war er schon wieder nicht erreichbar und laut nmap waren aber alle ports offen die ich brauchte. Also ist das ganze schon richtig komisch.

Hier ist mal die Infos welche ich über smartctl bekommen:

Code: Select all

=== START OF INFORMATION SECTION ===
Device Model:     IC35L040AVVA07-0
Serial Number:    VNC212A2LREGJB
Firmware Version: VA2OA52A
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   5
ATA Standard is:  ATA/ATAPI-5 T13 1321D revision 1
Local Time is:    Fri Aug  4 16:11:23 2006 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                 (1124) seconds.
Offline data collection
capabilities:                    (0x1b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        No Conveyance Self-test supported.
                                        No Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        No General Purpose Logging support.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        (  19) minutes.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   090   090   060    Pre-fail  Always       -       2949135
  2 Throughput_Performance  0x0005   146   146   050    Pre-fail  Offline      -       273
  3 Spin_Up_Time            0x0007   102   102   024    Pre-fail  Always       -       156 (Average 167)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       10
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   100   100   020    Pre-fail  Offline      -       48
  9 Power_On_Hours          0x0012   095   095   000    Old_age   Always       -       35874
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       10
192 Power-Off_Retract_Count 0x0032   100   100   050    Old_age   Always       -       1139
193 Load_Cycle_Count        0x0012   100   100   050    Old_age   Always       -       1139
194 Temperature_Celsius     0x0002   141   141   000    Old_age   Always       -       39 (Lifetime Min/Max 16/47)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
No self-tests have been logged.  [To run self-tests, use: smartctl -t]


Device does not support Selective Self Tests/Logging
Was ja auch noch komisch ist das seit kurzem irgendwie der Apache spinnen wurde d.h. er bringt weiße Seiten aber wenn man ein paar mal auf F5 klickt dann passt alles wieder. In den Logs find ich dann aber auch keine Fehler Meldung.

Ich hoffe das es nicht wirklich ein Platten schaden ist.

ein fsck gibt dann folgendes aus:

Code: Select all

/: clean, 8487/131072 files, 33787/131072 blocks
Ich hoffe ihr wisst etwas weiter :-(
cat
Posts: 96
Joined: 2002-09-14 20:57
Location: unterwegs-im.net ;)
Contact:
 

Re: Server hat hin und wieder Ausfälle

Post by cat »

hmmm,

hatte meiner auch, da wars der RAM ..

ich denke, Du solltest ruhig mal einen erweiterten Healthcheck machen lassen ... kann halt nur der Provider, ausser Du hast eine Serielle Console

GreetZ
Cat
philippxp
Posts: 71
Joined: 2005-02-24 21:17
 

Re: Server hat hin und wieder Ausfälle

Post by philippxp »

ja hab eine e-mail an alturo geschickt und die fahren nun mal einen lasttest.

Komische Fehler sind z.B. auch noch das wenn ich mit 2 x ssh verbunden bin und dann fang ich z.B. mal was an zu packen oder download also so was in die richtung dann bricht er auf einmal die verbindung ab. aber die andere verbindung bleibt erhalten
philippxp
Posts: 71
Joined: 2005-02-24 21:17
 

Re: Server hat hin und wieder Ausfälle

Post by philippxp »

So nun wurde mal der Ram ausgetauscht ich hoff es wird nun besser....
philippxp
Posts: 71
Joined: 2005-02-24 21:17
 

Re: Server hat hin und wieder Ausfälle

Post by philippxp »

Also langsam weiß ich wirklich nicht mehr weiter....

Er stürzt irgendwie richtig regelmäßig ab....

Image

Ich weiß schon gar nicht mehr wo ich nachschauen soll. Er lief doch wunderbar die ganzen Monate.... *wein*
philippxp
Posts: 71
Joined: 2005-02-24 21:17
 

Re: Server hat hin und wieder Ausfälle

Post by philippxp »

Also es war definitiv die Hardware weil Alturo hat den Server nun komplett getauscht und nun funzt auch wieder alles.
thorsten
Posts: 561
Joined: 2003-02-01 13:14
Location: Fuldatal
 

Re: Server hat hin und wieder Ausfälle

Post by thorsten »

Du kannst beim nächsten mal selbst die Festplatte übrprüfen, indem du per smartctl den erweiterten Check laufen läßt:

smartctl -s on /dev/hda
smartctl -t long /dev/hda


Spätestens, wenn so ein langer smartcheck nicht mehr komplett durchläuft, ist die Platte der Übeltäter.

EDIT:
Ich sehe gerade in deinem munin, dass du 10 Apachen startest, im Schnitt aber nur 1-2 Stück benötigst. Hier kannst du ein wenig einsparen, was deiner 'memory usage' zum Guten kommen sollte.
philippxp
Posts: 71
Joined: 2005-02-24 21:17
 

Re: Server hat hin und wieder Ausfälle

Post by philippxp »

Thorsten wrote:Du kannst beim nächsten mal selbst die Festplatte übrprüfen, indem du per smartctl den erweiterten Check laufen läßt:

smartctl -s on /dev/hda
smartctl -t long /dev/hda


Spätestens, wenn so ein langer smartcheck nicht mehr komplett durchläuft, ist die Platte der Übeltäter.

EDIT:
Ich sehe gerade in deinem munin, dass du 10 Apachen startest, im Schnitt aber nur 1-2 Stück benötigst. Hier kannst du ein wenig einsparen, was deiner 'memory usage' zum Guten kommen sollte.
Die Test hab ich ja eh gemacht aber da fand ich laut smarctl keinen Fehler. Es war halt dann so das Sie den Ram getauscht haben und dann hatte ich wieder Fehler also nochmal memtest angeworfen und dann war ich richtig sauer weil schon wieder fehler da waren und somit hab mal dennen das ganze Kernel.log geschickt :-). Ich glaub die haben sich über 80 Seiten gefreut...

Jedenfalls läuft nun wieder alles wie es soll. Es gibt nur noch ein Problem und das ist das auf einmal in /etc lauter Dateien liegen die von 2000, 2003, 2004 liegen die ich a) nicht installiert hab und b) ich da denn root noch nicht hatte. Nun frage ich mal ob Alturo da eine neue Platte eingebaut hat oder eine benutzte aber nicht formatierte....

Eine andere ist es jedenfalls bzw. der ganze Server scheint "neu" zu sein weil die HD war vorher 4,3 Jahre alt und ist nun 4,1 Jahre alt.
Post Reply