was tun wenn der Server stirbt?

FreeBSD, Gentoo, openSUSE, CentOS, Ubuntu, Debian
sstadtl
Posts: 34
Joined: 2002-09-01 19:02

was tun wenn der Server stirbt?

Post by sstadtl » 2006-03-08 13:16

Hallo Roots

Also ich bin etwas verzweifelt weil mein Hauptwebserver seit einer weile in unregelmäßigen Abständen(2 Tage bis 4 Wochen) einfach stirbt. Die Logfiles hören wenn das passiert in dem Moment einfach auf.
Der Server hat eine Remote-Management Karte, mit der ich mir die aktuelle Bildschirmausgabe holen kann:
Image
Leider kann ich in der Remote Konsole nicht scrollen, um mir mehr von der Fehlermeldung anzusehen.
Das Problem trat das erste mal auf, 2 Tage nachdem ich einen neuen Kernel installiert habe. Dann habe ich natürlich schnell einen downgrade gemacht, aber es passiert trotzdem.
Sobald der Feher auftritt löse ich ein reset aus und alle startet ganz normal und läuft dann wieder für 2 Tage bis 4 Wochen.
Was würdet ihr nun an meiner Stelle machen?
Mit solch einer unklaren Fehlerbeschreibung und einem Fehler der so selten auftritt findet der Support doch niemals irgendwas..

Ich bin dankbar für alle Tips und Tricks die ihr in einem solchen Fall machen würdet.
Ein paar Details zum System:

Code: Select all

lspci
0000:00:00.0 Host bridge: Intel Corp. E7501 Memory Controller Hub (rev 01)
0000:00:00.1 ff00: Intel Corp. E7500/E7501 Host RASUM Controller (rev 01)
0000:00:02.0 PCI bridge: Intel Corp. E7500/E7501 Hub Interface B PCI-to-PCI Bridge (rev 01)
0000:00:02.1 ff00: Intel Corp. E7500/E7501 Hub Interface B RASUM Controller (rev 01)
0000:00:1d.0 USB Controller: Intel Corp. 82801CA/CAM USB (Hub #1) (rev 02)
0000:00:1d.1 USB Controller: Intel Corp. 82801CA/CAM USB (Hub #2) (rev 02)
0000:00:1d.2 USB Controller: Intel Corp. 82801CA/CAM USB (Hub #3) (rev 02)
0000:00:1e.0 PCI bridge: Intel Corp. 82801 PCI Bridge (rev 42)
0000:00:1f.0 ISA bridge: Intel Corp. 82801CA LPC Interface Controller (rev 02)
0000:00:1f.1 IDE interface: Intel Corp. 82801CA Ultra ATA Storage Controller (rev 02)
0000:00:1f.3 SMBus: Intel Corp. 82801CA/CAM SMBus Controller (rev 02)
0000:01:1c.0 PIC: Intel Corp. 82870P2 P64H2 I/OxAPIC (rev 04)
0000:01:1d.0 PCI bridge: Intel Corp. 82870P2 P64H2 Hub PCI Bridge (rev 04)
0000:01:1e.0 PIC: Intel Corp. 82870P2 P64H2 I/OxAPIC (rev 04)
0000:01:1f.0 PCI bridge: Intel Corp. 82870P2 P64H2 Hub PCI Bridge (rev 04)
0000:03:01.0 RAID bus controller: 3ware Inc 3ware 7000-series ATA-RAID (rev 01)
0000:04:02.0 VGA compatible controller: ATI Technologies Inc Rage Mobility P/M (rev 64)
0000:04:03.0 VGA compatible controller: ATI Technologies Inc Rage XL (rev 27)
0000:04:04.0 Ethernet controller: Intel Corp. 82557/8/9 [Ethernet Pro 100] (rev 0d)
0000:04:05.0 Ethernet controller: Intel Corp. 82540EM Gigabit Ethernet Controller (rev 02)
gibt es andere Infos die jemand braucht, dann hier posten ich reiche die nach.

bfrackie
Posts: 63
Joined: 2003-08-26 12:00

Re: was tun wenn der Server stirbt?

Post by bfrackie » 2006-03-08 14:02

du kannst übrigens so nen automatischen reboot nach einem kernel panic machen:

echo "2" > /proc/sys/kernel/panic

hast du den bootmanager auch wieder auf den alten kernel eingestellt?

sstadtl
Posts: 34
Joined: 2002-09-01 19:02

Re: was tun wenn der Server stirbt?

Post by sstadtl » 2006-03-08 15:14

bfrackie wrote:

Code: Select all

echo "2" > /proc/sys/kernel/panic
danke. das ist zu mindest eine super lösung für die 10 Tage die ich bald im Urlaub bin. Kannst Du mir sagen wo ich es bei debian 3.1 reinschreiben sollte damit das auch nach dem nächsten reboot wieder so gesetzt ist?
bfrackie wrote: hast du den bootmanager auch wieder auf den alten kernel eingestellt?
ja. inzwischen habe ich noch einen anderen kernel(von backports.org) installiert, aber das problem trat weiterhin auf.
Außerdem habe ich einen Verify-Test von meinem RAID-Controller ausführen lassen. Der fand zwar ein paar defekte blöcke, aber das halte ich jetzt irgendwie nicht für einen Grund das der Kernel panic macht.... Der Raidcontroller sollte das ja eh vor dem Betriebssystem verstecken.

bfrackie
Posts: 63
Joined: 2003-08-26 12:00

Re: was tun wenn der Server stirbt?

Post by bfrackie » 2006-03-08 15:19

also bei gentoo ist es die /etc/sysctl.conf, die gibts aber auch bei debian soweit ich das hier sehen kann. da habe ich es aber noch nicht probiert.

lufthansen
Posts: 390
Joined: 2002-09-24 17:31
Location: NRW

Re: was tun wenn der Server stirbt?

Post by lufthansen » 2006-03-08 22:27

ohne garantie:

Code: Select all

 cat /etc/sysctl.conf
#
# /etc/sysctl.conf - Configuration file for setting system variables
# See sysctl.conf (5) for information.
#
#kernel.domainname = example.com
#net/ipv4/icmp_echo_ignore_broadcasts=1
sys/kernel/panic=2
dann :

Code: Select all

sysctl -p

sstadtl
Posts: 34
Joined: 2002-09-01 19:02

:-(

Post by sstadtl » 2006-03-18 19:47

Code: Select all

# sysctl -p
error: 'sys.kernel.panic' is an unknown key
:-(
und nu?

Roger Wilco
Administrator
Administrator
Posts: 6001
Joined: 2004-05-23 12:53

Re: was tun wenn der Server stirbt?

Post by Roger Wilco » 2006-03-18 19:59

kernel.panic
ohne sys.

Lies dazu /usr/src/linux/Documentation/sysctl/kernel.txt (sofern der Kernelquellcode bei dir unter /usr/src/linux zu finden ist).