Server hängt mit hohem WA-Wert

FreeBSD, Gentoo, openSUSE, CentOS, Ubuntu, Debian
sir-uli
Posts: 6
Joined: 2006-07-12 14:36
Location: 127.0.0.1

Server hängt mit hohem WA-Wert

Post by sir-uli » 2007-05-10 07:31

Guten Morgen,

mein Root (ich nenne ihn mal so, da Ich der alleinige Nutzer des Servers bin) hängt leider ziemlich mit annähernd 100% WA (im top) seitdem für 5 Minuten der Strom gefehlt hat...

Da hohe WA-werte meines Wissens häufig auf Festplattenfehler hindeuten, habe ich mal ein Knoppix gestartet ein "reiserfsck --check /dev/sda2" über die betroffende Partition laufen lassen, zum Glück (oder auch leider lag es nicht daran) wurden keine Fehler gefunden. Ich hatte vor einiger Zeit habe auch schon eine Reiser-Platte retten müssen, reiserfsck hätte eigentlich imho maulen müssen, wenns Probleme der Hardware geben sollte.
Auch badblocks hat keine defekten Sektoren auf der Festplatte gefunden.

Ich habe in der Zwischenzeit (zwischen Absturz und den Neustarts auch keine Configs geändert, vorher war eigentlich immer alles normal...

Wenn ich den Root nun starte, ist alles normal. Sobald aber wir im Intranet ein wenig gas geben (Termine in der Groupware vereinbaren usw) steigt irgendwann der WA-Wert.

Meine Fragen:
Gibt es ein tool moit dem ich sehen kann welche Prozesse das verursachen?

Und:

Was kann man noch machen?

Gruß
Uli

rootsvr
Posts: 538
Joined: 2005-09-02 11:12

Re: Server hängt mit hohem WA-Wert

Post by rootsvr » 2007-05-10 10:37

top zeigt Dir was grade ansteht, ob man da explizit die wa quellen findet weiß ich nicht. Ich denke man kann aber blind auf die Datenbank tippen ;-)

DMA und co sind aber aktiv, oder?
hdparm -tT /dev/hda1 sollte irgendwas größer 40MB/sec ausspucken bei neueren platten auch um 60MB/sec, sonst bremst das natürlich immens.

kase
RSAC
Posts: 1041
Joined: 2002-10-14 22:56

Re: Server hängt mit hohem WA-Wert

Post by kase » 2007-05-10 10:45

Evtl sind durch den Absturz die Platten nicht mehr synchron, das würde eine sehr hohe io-Wait für den Zeitraum des Snyc-Vorgangs erklären. (besonders bei Software-Raids) Falls die io-Wait dauerhaft hoch bleibt, kann es auch gut sein, dass eine Platte am Abrauchen ist. Wenn vor dem Absturz alles normal war und die Probleme erst jetzt auftauchen, ist ein Dienst wie die Datenbank eher auszuschließen. (IMHO)

User avatar
Joe User
Project Manager
Project Manager
Posts: 11583
Joined: 2003-02-27 01:00
Location: Hamburg

Re: Server hängt mit hohem WA-Wert

Post by Joe User » 2007-05-10 10:58

Da Du offenbar physischen Zugang zum System hast:
Lege ein vollständiges(!) Backup an und reformatiere die Partitionen mittels `mke2fs -c -c /dev/sdaX` und erst danach mit dem Filesystem Deines Vertrauens. Anschliessend spielst Du das Backup zurück und beobachtest die Kiste weiter...
PayPal.Me/JoeUserFreeBSD Remote Installation
Wings for LifeWings for Life World Run

„If there’s more than one possible outcome of a job or task, and one
of those outcomes will result in disaster or an undesirable consequence,
then somebody will do it that way.“ -- Edward Aloysius Murphy Jr.

sir-uli
Posts: 6
Joined: 2006-07-12 14:36
Location: 127.0.0.1

Re: Server hängt mit hohem WA-Wert

Post by sir-uli » 2007-05-10 14:11

rootsvr wrote:DMA und co sind aber aktiv, oder?
hdparm -tT /dev/hda1 sollte irgendwas größer 40MB/sec ausspucken bei neueren platten auch um 60MB/sec, sonst bremst das natürlich immens.
Wie gesagt, das seltsame ist, dass ich keinerlei Configs geändert hatte :( Also sollte eigentlich sich an diesen Sachen nix geändert haben.

Edit:
~# hdparm -tT /dev/sda1

/dev/sda1:
Timing cached reads: 1100 MB in 2.01 seconds = 548.20 MB/sec
Timing buffered disk reads: 184 MB in 3.03 seconds = 60.77 MB/sec
kase wrote:Evtl sind durch den Absturz die Platten nicht mehr synchron, das würde eine sehr hohe io-Wait für den Zeitraum des Snyc-Vorgangs erklären. (besonders bei Software-Raids)
Ich habe die komplette Nacht gewartet, dass der Wert wieder runter geht => keinerlei Änderung. Als Systemplatte ist nur eine Platte drinnen, auf eine zweite wird ein Fullbackup gefahren.
Joe User wrote:Da Du offenbar physischen Zugang zum System hast:
Lege ein vollständiges(!) Backup an und reformatiere die Partitionen mittels `mke2fs -c -c /dev/sdaX` und erst danach mit dem Filesystem Deines Vertrauens. Anschliessend spielst Du das Backup zurück und beobachtest die Kiste weiter...
Wäre eine Idee, werde ich probieren, wenn ich nicht dahinter komme, was los ist.

Was mir heute morgen aufgefallen ist: Wenn ich den Apache2 nicht starte, dann kamen innerhalb der ersten 30 Minuten (länger konnte ich es nicht beobachten) keine eklatanten WA-Werte vor. Ich versuche jetzt mal MySQL zu stoppen und Apache laufen zu lassen.

Hab grad einen seltsamen Eintrag im syslog gefunden:

Code: Select all

May 10 13:47:55 localserver kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
May 10 13:47:55 localserver kernel: ata1.00: (BMDMA stat 0x4)
May 10 13:47:55 localserver kernel: ata1.00: cmd c8/00:08:88:00:f9/00:00:00:00:00/e3 tag 0 cdb 0x0 data 4096 in
May 10 13:47:55 localserver kernel:          res 51/40:08:89:00:f9/00:00:00:00:00/e3 Emask 0x9 (media error)
May 10 13:47:55 localserver kernel: ata1.00: configured for UDMA/133
May 10 13:47:55 localserver kernel: ata1: EH complete
May 10 13:47:58 localserver kernel: ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
May 10 13:47:58 localserver kernel: ata1.00: (BMDMA stat 0x4)
May 10 13:47:58 localserver kernel: ata1.00: cmd c8/00:08:88:00:f9/00:00:00:00:00/e3 tag 0 cdb 0x0 data 4096 in
May 10 13:47:58 localserver kernel:          res 51/40:08:89:00:f9/00:00:00:00:00/e3 Emask 0x9 (media error)
May 10 13:47:58 localserver kernel: ata1.00: configured for UDMA/133
May 10 13:47:58 localserver kernel: ata1: EH complete
Ziemlich in dem Moment als der WA-Wert auf 100 raufging....

Vor allem das "media error" macht mir sorge...

Hilft das vielleicht zur Diagnose?

Nochmal ein Edit:

Code: Select all

~# smartctl -d ata -A /dev/sda
smartctl version 5.32 Copyright (C) 2002-4 Bruce Allen
Home page is http://smartmontools.sourceforge.net/

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 32
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  3 Spin_Up_Time            0x0027   233   213   063    Pre-fail  Always       -       6057
  4 Start_Stop_Count        0x0032   253   253   000    Old_age   Always       -       424
  5 Reallocated_Sector_Ct   0x0033   253   253   063    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000a   253   252   000    Old_age   Always       -       0
  8 Seek_Time_Performance   0x0027   252   243   187    Pre-fail  Always       -       32850
  9 Power_On_Hours          0x0032   240   240   000    Old_age   Always       -       4579
 10 Spin_Retry_Count        0x002b   253   252   157    Pre-fail  Always       -       0
 11 Calibration_Retry_Count 0x002b   253   252   223    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   253   253   000    Old_age   Always       -       38
189 Unknown_Attribute       0x003a   100   100   000    Old_age   Always       -       0
190 Unknown_Attribute       0x0022   054   039   000    Old_age   Always       -       807796782
192 Power-Off_Retract_Count 0x0032   253   253   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   253   253   000    Old_age   Always       -       0
194 Temperature_Celsius     0x0032   044   253   000    Old_age   Always       -       46
195 Hardware_ECC_Recovered  0x000a   253   217   000    Old_age   Always       -       21
196 Reallocated_Event_Count 0x0008   253   253   000    Old_age   Offline      -       0
197 Current_Pending_Sector  0x0008   253   253   000    Old_age   Offline      -       1
198 Offline_Uncorrectable   0x0008   252   252   000    Old_age   Offline      -       1
199 UDMA_CRC_Error_Count    0x0008   199   199   000    Old_age   Offline      -       0
200 Multi_Zone_Error_Rate   0x000a   253   252   000    Old_age   Always       -       0
201 Soft_Read_Error_Rate    0x000a   253   252   000    Old_age   Always       -       0
202 TA_Increase_Count       0x000a   253   252   000    Old_age   Always       -       0
203 Run_Out_Cancel          0x000b   253   252   180    Pre-fail  Always       -       4
204 Shock_Count_Write_Opern 0x000a   253   252   000    Old_age   Always       -       0
205 Shock_Rate_Write_Opern  0x000a   253   252   000    Old_age   Always       -       0
207 Spin_High_Current       0x002a   253   252   000    Old_age   Always       -       0
208 Spin_Buzz               0x002a   253   252   000    Old_age   Always       -       0
210 Unknown_Attribute       0x0032   253   252   000    Old_age   Always       -       0
211 Unknown_Attribute       0x0032   253   252   000    Old_age   Always       -       0
212 Unknown_Attribute       0x0032   253   252   000    Old_age   Always       -       0
Ich vermute, die Platte ist hinüber... dammt, die ist fast neu.

braindead
RSAC
Posts: 257
Joined: 2002-10-22 09:49
Location: vorm Rechner

Re: Server hängt mit hohem WA-Wert

Post by braindead » 2007-05-11 15:43

Ich vermute, die Platte ist hinüber... dammt, die ist fast neu.
Also in der Smartausgabe kann ich nix schlimmes sehen, aber da die Platte ja wohl noch net so alt ist hast du ja noch Garantie oder?

Ich würde aber das wa Joe vorgeschlagen hat auch erstmal probieren.

sir-uli
Posts: 6
Joined: 2006-07-12 14:36
Location: 127.0.0.1

Re: Server hängt mit hohem WA-Wert

Post by sir-uli » 2007-05-14 18:27

Hallo zusammen,

das Problem ist gelöst, hab einfach die komplette Platte mit dd_rescue auf ne zweite identische kopiert und habe dann die bisherige Platte umgetauscht. Hat alles bestens geklappt, mein System rennt wieder ;)

Vielen Dank euch allen!
Gruß
Uli