Server hat immer wieder Ausfälle

FreeBSD, Gentoo, openSUSE, CentOS, Ubuntu, Debian
linuxnewbie
Posts: 150
Joined: 2003-01-24 16:00

Server hat immer wieder Ausfälle

Post by linuxnewbie » 2006-04-21 12:22

Mein Server hat seit einigen Monaten immer wieder Ausfälle das er komplett stehenbleibt und sich aufhängt.

Alles hat damit angefangen als der Server ein CPU sowie RAM Upgrade erhalten hat.

Gestern hatte ich wieder so einen Ausfall und wie so oft hatte ich dann in /var/log/messages einen Eintrag der ähnlich wie der folgende ist.

Code: Select all

 kernel: Unable to handle kernel NULL pointer dereference at virtual address 00000021
 kernel:  printing eip:
 kernel: c0158ad8
 kernel: *pde = 00000000
 kernel: Oops: 0000 [#1]
 kernel: SMP
 kernel: Modules linked in: iptable_filter ip_tables nvram ipv6 quota_v2 edd joydev sg st sr_mod evdev 8139
too mii hw_random i2c_i801 intel_agp agpgart i2c_core parport_pc lp parport video1394 ohci1394 raw1394 ieee1394 capability dm_
mod ext3 jbd ide_cd cdrom ide_disk ata_piix libata piix ide_core sd_mod scsi_mod
 kernel: CPU:    0
 kernel: EIP:    0060:[<c0158ad8>]    Not tainted VLI
 kernel: EFLAGS: 00010202   (2.6.11.4-21.11-smp)
 kernel: EIP is at page_referenced_anon+0x68/0x90
 kernel: eax: ffffffe9   ebx: ffffffe9   ecx: 00000000   edx: 00000021
 kernel: esi: c1727900   edi: dffde964   ebp: dffde968   esp: e48a7d08
 kernel: ds: 007b   es: 007b   ss: 0068
 kernel: Process wolfpack (pid: 28956, threadinfo=e48a6000 task=f7648020)
 kernel: Stack: 00000001 00000000 00000001 00000001 c1727900 00000000 00000020 00000000
 kernel:        c0158c46 c1727900 c0368a00 c014f085 c0369b84 e48a7d58 c0369b80 00000001
 kernel:        00000020 00000020 00000000 e48a7df4 c17294b8 c1757438 e48a7d60 e48a7d60
 kernel: Call Trace:
 kernel:  [<c0158c46>] page_referenced+0x66/0xa0
 kernel:  [<c014f085>] refill_inactive_zone+0x485/0x500
 kernel:  [<c018e955>] mb_cache_shrink_fn+0x155/0x170
 kernel:  [<c014f17c>] shrink_zone+0x7c/0xd0
 kernel:  [<c014f22a>] shrink_caches+0x5a/0x80
 kernel:  [<c014f304>] try_to_free_pages+0xb4/0x180
 kernel:  [<c014813f>] __alloc_pages+0x21f/0x460
 kernel:  [<c0153757>] do_anonymous_page+0xa7/0x170
 kernel:  [<c015388a>] do_no_page+0x6a/0x2e0
 kernel:  [<c0153d53>] handle_mm_fault+0x153/0x1a0
 kernel:  [<c0119643>] do_page_fault+0x1d3/0x59d
 kernel:  [<c0266e3e>] freed_request+0x1e/0x90
 kernel:  [<c010f56c>] mark_offset_tsc+0x1ec/0x340
 kernel:  [<c012a8ce>] update_wall_time+0xe/0x50
 kernel:  [<c0132b3e>] rcu_check_quiescent_state+0x6e/0x90
 kernel:  [<c0132c1c>] __rcu_process_callbacks+0xac/0xf0
 kernel:  [<c0126955>] tasklet_action+0x55/0xc0
 kernel:  [<c01265e2>] __do_softirq+0x62/0xe0
 kernel:  [<c0119470>] do_page_fault+0x0/0x59d
 kernel: Code: 74 26 00 8b 44 24 08 8d 4c 24 0c 89 da 89 04 24 89 f0 e8 4c fe ff ff 01 44 24 04 8b 44 24 0c
 85 c0 74 13 8b 53 38 8d 42 c8 89 c3 <8b> 40 38 0f 18 00 90 39 ea 75 cd 89 f8 e8 e6 70 1b 00 8b 44 24
Ich hatte bei den ersten Ausfällen damals schon auf den RAM getippt, der Support hat den RAM jedoch geprüft und die Hardware getestet ohne Probleme zu finden.
Inzwischen musste der Server 2 mal komplett neu aufgesetzt werden da durch die "Erhänger" das Filesystem 2 mal so beschädigt wurde das kein Normalbetrieb mehr möglich war.

Ich bin echt langsam am verzweifeln, da der Support nur etwas tut wenn man Ihn dafür bezahlt. Und das wird auf dauer mir zu teuer.

Kann es sein das der Support einfach zu unfähig ist einen Fehler zu finden?

Ich erhalte auch öfters wenn ich Programme kompiliere einen Segfault. Dies kommt aber immer nur Sporadisch. Lass ich den Vorgang nochmal von vorne beginnen geht er irgendwann durch.

thorsten
RSAC
Posts: 732
Joined: 2003-02-01 13:14
Location: Fuldatal

Re: Server hat immer wieder Ausfälle

Post by thorsten » 2006-04-21 12:51

Für mich hört sich das nach einem Hardwareproblem an. Wenn die sich den Speicher nur anschauen, werden die keinen Fehler finden.
Die sollten den Austauschen und du testet dann, ob alles ok ist - schade, dass es kein netzwerkfähiges memtest gibt...