Abstürze

FreeBSD, Gentoo, openSUSE, CentOS, Ubuntu, Debian
minibbjd
Posts: 26
Joined: 2003-05-10 22:26

Abstürze

Post by minibbjd »

Hallo,

wie so manch' anderer kämpfe auch ich mit nicht nachvollziehbaren Abstürzen auf meinem Rootie. Die Lektüre der enstprechenden Threads half mir bislang nicht.

Es ist ein Rootserver L mit Debiansystem. Kernel ist 2.4.18-bf2.4. Installiert sind u.a. apache, mysql, qmail, courier, sshd. Auf dem Apache nutze ich sowohl perl als auch php4 (u.a. Mantis, TWiki, Gallery).

Die Abstürze kommen total unregelmässig. Ein direkter Reboot ins normale System erweckt den Server wieder zum Leben. Die Logs nach einem Absturz sind komplett unauffällig.

Gestern abend habe ich mal 'options via-rhine debug=2' in modules.conf eingefügt und rebootet. Heute morgen gegen 11 Uhr war er wieder weg:

...
Jul 27 10:03:12 chet -- MARK --
Jul 27 10:23:12 chet -- MARK --
Jul 27 11:38:05 chet syslogd 1.4.1#10: restart.
Jul 27 11:38:05 chet kernel: klogd 1.4.1#10, log source = /proc/kmsg started.
Jul 27 11:38:05 chet kernel: Inspecting /boot/System.map-2.4.18-bf2.4
....

Ein 'grep -i "hda" /var/log/*' zeigt keine Auffälligkeiten an der Platte.

Ich bin nun etwas ratlos. Wenn noch jemand Ideen hat, ich würde sie gern hören. :-( Als Ansatzpunkt wegen sonstiger Ratlosigkeit unten mal dmesg.

Danke,
Marcus

***************
Linux version 2.4.18-bf2.4 (root@mizar) (gcc version 2.95.4 20011002 (Debian prerelease)) #1 Sun Jun 8 23:58:27 UTC 2003
BIOS-provided physical RAM map:
BIOS-e820: 0000000000000000 - 00000000000a0000 (usable)
BIOS-e820: 00000000000f0000 - 0000000000100000 (reserved)
BIOS-e820: 0000000000100000 - 000000000f7f0000 (usable)
BIOS-e820: 000000000f7f0000 - 000000000f7f3000 (ACPI NVS)
BIOS-e820: 000000000f7f3000 - 000000000f800000 (ACPI data)
BIOS-e820: 00000000ffff0000 - 0000000100000000 (reserved)
On node 0 totalpages: 63472
zone(0): 4096 pages.
zone(1): 59376 pages.
zone(2): 0 pages.
No local APIC present or hardware disabled
Kernel command line: auto BOOT_IMAGE=debian ro root=303
Initializing CPU#0
Detected 2003.458 MHz processor.
Console: colour VGA+ 80x25
Calibrating delay loop... 3997.69 BogoMIPS
Memory: 246576k/253888k available (1784k kernel code, 6928k reserved, 549k data, 280k init, 0k highmem)
Dentry-cache hash table entries: 32768 (order: 6, 262144 bytes)
Inode-cache hash table entries: 16384 (order: 5, 131072 bytes)
Mount-cache hash table entries: 4096 (order: 3, 32768 bytes)
Buffer-cache hash table entries: 16384 (order: 4, 65536 bytes)
Page-cache hash table entries: 65536 (order: 6, 262144 bytes)
CPU: Before vendor init, caps: bfebf9ff 00000000 00000000, vendor = 0
CPU: L1 I cache: 12K, L1 D cache: 8K
CPU: After vendor init, caps: bfebf9ff 00000000 00000000 00000000
Intel machine check architecture supported.
Intel machine check reporting enabled on CPU#0.
CPU: After generic, caps: bfebf9ff 00000000 00000000 00000000
CPU: Common caps: bfebf9ff 00000000 00000000 00000000
CPU: Intel(R) Celeron(R) CPU 2.00GHz stepping 07
Enabling fast FPU save and restore... done.
Enabling unmasked SIMD FPU exception support... done.
Checking 'hlt' instruction... OK.
Checking for popad bug... OK.
POSIX conformance testing by UNIFIX
mtrr: v1.40 (20010327) Richard Gooch (rgooch@atnf.csiro.au)
mtrr: detected mtrr type: Intel
PCI: PCI BIOS revision 2.10 entry at 0xfb350, last bus=1
PCI: Using configuration type 1
PCI: Probing PCI hardware
Unknown bridge resource 0: assuming transparent
PCI: Using IRQ router default [1106/3148] at 00:00.0
PCI: Via IRQ fixup for 00:10.1, from 255 to 0
Linux NET4.0 for Linux 2.4
Based upon Swansea University Computer Society NET3.039
Initializing RT netlink socket
Starting kswapd
VFS: Diskquotas version dquot_6.4.0 initialized
Journalled Block Device driver loaded
vga16fb: initializing
vga16fb: mapped to 0xc00a0000
Console: switching to colour frame buffer device 80x30
fb0: VGA16 VGA frame buffer device
Detected PS/2 Mouse Port.
pty: 256 Unix98 ptys configured
Serial driver version 5.05c (2001-07-08) with MANY_PORTS SHARE_IRQ SERIAL_PCI enabled
keyboard: Timeout - AT keyboard not present?(ed)
keyboard: Timeout - AT keyboard not present?(f4)
ttyS00 at 0x03f8 (irq = 4) is a 16550A
Real Time Clock Driver v1.10e
block: 128 slots per queue, batch=32
RAMDISK driver initialized: 16 RAM disks of 4096K size 1024 blocksize
Uniform Multi-Platform E-IDE driver Revision: 6.31
ide: Assuming 33MHz system bus speed for PIO modes; override with idebus=xx
VP_IDE: IDE controller on PCI bus 00 dev 89
PCI: No IRQ known for interrupt pin A of device 00:11.1. Please try using pci=biosirq.
VP_IDE: chipset revision 6
VP_IDE: not 100% native mode: will probe irqs later
VP_IDE: Unknown VIA SouthBridge, contact Vojtech Pavlik <vojtech@suse.cz>
hda: IC35L040AVVN07-0, ATA DISK drive
ide0 at 0x1f0-0x1f7,0x3f6 on irq 14
ide0: probed IRQ 14 failed, using default.
hda: 80418240 sectors (41174 MB) w/1863KiB Cache, CHS=5005/255/63
ide-floppy driver 0.97.sv
Partition check:
hda: hda1 hda2 hda3 hda4 < hda5 hda6 hda7 hda8 hda9 >
FDC 0 is a post-1991 82077
Loading I2O Core - (c) Copyright 1999 Red Hat Software
I2O configuration manager v 0.04.
(C) Copyright 1999 Red Hat Software
loop: loaded (max 8 devices)
Compaq CISS Driver (v 2.4.5)
HDLC support module revision 1.02 for Linux 2.4
Cronyx Ltd, Synchronous PPP and CISCO HDLC (c) 1994
Linux port (c) 1998 Building Number Three Ltd & Jan "Yenya" Kasprzak.
ide-floppy driver 0.97.sv
Promise Fasttrak(tm) Softwareraid driver 0.03beta: No raid array found
Highpoint HPT370 Softwareraid driver for linux version 0.01
No raid array found
SCSI subsystem driver Revision: 1.00
Red Hat/Adaptec aacraid driver, Jun 8 2003
DC390: 0 adapters found
3ware Storage Controller device driver for Linux v1.02.00.016.
3w-xxxx: No cards with valid units found.
request_module[scsi_hostadapter]: Root fs not mounted
request_module[scsi_hostadapter]: Root fs not mounted
i2o_scsi.c: Version 0.0.1
chain_pool: 0 bytes @ cf7efaa0
(512 byte buffers X 4 can_queue X 0 i2o controllers)
NET4: Linux TCP/IP 1.0 for NET4.0
IP Protocols: ICMP, UDP, TCP, IGMP
IP: routing cache hash table of 2048 buckets, 16Kbytes
TCP: Hash tables configured (established 16384 bind 16384)
NET4: Unix domain sockets 1.0/SMP for Linux NET4.0.
EXT3-fs: INFO: recovery required on readonly filesystem.
EXT3-fs: write access will be enabled during recovery.
kjournald starting. Commit interval 5 seconds
EXT3-fs: recovery complete.
EXT3-fs: mounted filesystem with ordered data mode.
VFS: Mounted root (ext3 filesystem) readonly.
Freeing unused kernel memory: 280k freed
Adding Swap: 257032k swap-space (priority -1)
EXT3 FS 2.4-0.9.17, 10 Jan 2002 on ide0(3,3), internal journal
via-rhine.c:v1.10-LK1.1.13 Nov-17-2001 Written by Donald Becker
http://www.scyld.com/network/via-rhine.html
via-rhine: reset finished after 5 microseconds.
eth0: VIA VT6102 Rhine-II at 0xe000, 00:40:63:c4:30:54, IRQ 15.
eth0: MII PHY found at address 1, status 0x786d advertising 05e1 Link 41e1.
kjournald starting. Commit interval 5 seconds
EXT3 FS 2.4-0.9.17, 10 Jan 2002 on ide0(3,1), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting. Commit interval 5 seconds
EXT3 FS 2.4-0.9.17, 10 Jan 2002 on ide0(3,5), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting. Commit interval 5 seconds
EXT3 FS 2.4-0.9.17, 10 Jan 2002 on ide0(3,6), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting. Commit interval 5 seconds
EXT3 FS 2.4-0.9.17, 10 Jan 2002 on ide0(3,7), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting. Commit interval 5 seconds
EXT3 FS 2.4-0.9.17, 10 Jan 2002 on ide0(3,8), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
kjournald starting. Commit interval 5 seconds
EXT3 FS 2.4-0.9.17, 10 Jan 2002 on ide0(3,9), internal journal
EXT3-fs: mounted filesystem with ordered data mode.
eth0: via_rhine_open() irq 15.
eth0: reset finished after 5 microseconds.
eth0: Setting full-duplex based on MII #1 link partner capability of 41e1.
ip_tables: (C) 2000-2002 Netfilter core team
ip_conntrack (1983 buckets, 15864 max)
***************

minibbjd
Posts: 26
Joined: 2003-05-10 22:26

Re: Abstürze

Post by minibbjd »

Hallo nochmal,

ich bin jetzt nochmal alle Logs rund um den Absturz von heute morgen händisch durchgegangen. Eigentlich alles unverdächtig, aber halt die Einträge direkt vorm Absturz:

/var/log/apache/error.log:
...
[Sun Jul 27 10:26:12 2003] [error] [client 217.121.248.22] File does not exist: /var/www/marcus/40tude.com/html/dialog/doemload.htm
[Sun Jul 27 10:26:19 2003] [error] [client 217.121.248.22] File does not exist: /var/www/marcus/40tude.com/html/dialog/dowmload.htm

Das entsprechende im access log für die enstpr. Domain:
...
217.121.248.22 - - [27/Jul/2003:10:26:12 +0200] "GET /dialog/doemload.htm HTTP/1.1" 404 434 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
217.121.248.22 - - [27/Jul/2003:10:26:19 +0200] "GET /dialog/dowmload.htm HTTP/1.1" 404 433 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"


(Sehe eigentlich nicht warum ein 404 den Server runter bringen sollte...)

Eine Sekunde später meldet sich dann auch nochmal qmail, bzw. spamassasin:

/var/log/mail.log:
...
Jul 27 10:26:19 chet qmail: 1059294379.925270 new msg 1612523
Jul 27 10:26:19 chet qmail: 1059294379.925374 info msg 1612523: bytes 1837 from <b.ebargains.0-1db9e95-3969.mmsoftware.com.-chef@l.ew01.com> qp 11667 uid 64011
Jul 27 10:26:19 chet qmail: 1059294379.943464 starting delivery 200: msg 1612523 to local marcus-chef@mmsoftware.com
Jul 27 10:26:19 chet qmail: 1059294379.943554 status: local 1/10 remote 0/20
Jul 27 10:26:19 chet spamd[194]: connection from localhost [127.0.0.1] at port 33198
Jul 27 10:26:19 chet spamd[11674]: info: setuid to marcus succeeded
Jul 27 10:26:19 chet spamd[11674]: processing message <200307270518.BAA30820@l.ew01.com> for marcus:1000.
Jul 27 10:26:20 chet spamd[11674]: identified spam (14.7/7.0) for marcus:1000 in 1.0 seconds, 2041 bytes.
Jul 27 10:26:20 chet qmail: 1059294380.991089 delivery 200: success: did_0+0+1/
Jul 27 10:26:20 chet qmail: 1059294380.991170 status: local 0/10 remote 0/20
Jul 27 10:26:20 chet qmail: 1059294380.991198 end msg 1612523

Wie gesagt, für mich sieht's unverdächtig aus, aber vielleicht kommt ja jemandem eine Idee.

Danke,
Marcus

mutombo
Posts: 184
Joined: 2003-06-19 06:10

Re: Abstürze

Post by mutombo »

kann dir eigwntlich nur empfehlen mal den aktuellen kernel 2.4.21 auszuprobieren. da ist der treiber für die via rhine etwas neuer.
allerdings wars die ursache dieses problems bei denn meisten hier doch ne defekte platte.

minibbjd
Posts: 26
Joined: 2003-05-10 22:26

Re: Abstürze

Post by minibbjd »

Ich habe jetzt mal auf 2.4.20-bf2.4 gewechselt und schau mal ob es sich bessert. Ich hoffe es braucht nicht den 2.4.21er.

Muss nun nichts damit zu tun haben, aber ich hab mal spasseshalber top über längere Zeit laufen gehabt und mir fiel auf, dass der "free memory" stetig sinkt. Ist das normal? Ich konnte keinen Prozess ausmachen bei dem SIZE, RSS oder SHARE entsprechend steigt.

Marcus

captaincrunch
Userprojekt
Userprojekt
Posts: 7066
Joined: 2002-10-09 14:30
Location: Dorsten

Re: Abstürze

Post by captaincrunch »

Muss nun nichts damit zu tun haben, aber ich hab mal spasseshalber top über längere Zeit laufen gehabt und mir fiel auf, dass der "free memory" stetig sinkt. Ist das normal? Ich konnte keinen Prozess ausmachen bei dem SIZE, RSS oder SHARE entsprechend steigt.
Arg ... http://www.rootforum.org/faq/index.php? ... 14&lang=de
DebianHowTo
echo "[q]sa[ln0=aln256%Pln256/snlbx]sb729901041524823122snlbxq"|dc

minibbjd
Posts: 26
Joined: 2003-05-10 22:26

Re: Abstürze

Post by minibbjd »

@CC: Aehm... :? Danke für die beherrschte Antwort. Ich schwöre ich hatte's schonmal gelesen.

Marcus

captaincrunch
Userprojekt
Userprojekt
Posts: 7066
Joined: 2002-10-09 14:30
Location: Dorsten

Re: Abstürze

Post by captaincrunch »

Na ausnahmsweise ... ;)
DebianHowTo
echo "[q]sa[ln0=aln256%Pln256/snlbx]sb729901041524823122snlbxq"|dc

chris299
Posts: 32
Joined: 2003-07-04 19:35

Re: Abstürze

Post by chris299 »

mein Tipp:
erstmal mit smartmon tools die platte genau ansehen.
dann den udma mode runtersetzen, wenn die platte eiwandfrei ist.

minibbjd
Posts: 26
Joined: 2003-05-10 22:26

Re: Abstürze

Post by minibbjd »

smartmon sagt mir und und auch apt-cache nix. Meinst du das Tool von http://www.santools.com/smartmon.html? Die muss ich erst per Email bitten ihr Tool auprobieren zu dürfen... Gibt's Alternative?

DMA hatte ich im Kernel mit hdparam 2.4.18 nicht aktiviert bekommen. Mit 2.4.20 klappt es jetzt und es belohnt mich mit einer 8mal so hohen Schreibgeschwindigkeit.

Marcus

dea
Posts: 532
Joined: 2002-08-13 12:05

Re: Abstürze

Post by dea »

versuchs mal mit der smart-suite (kann auch ohne Bindestrich sein ...), die gibbet auch für woody ;)

Anonymous

Re: Abstürze

Post by Anonymous »

Hatte mal ein ähnliches Problem (bei anderem Anbieter) mit meinem Server.
Durchsuche mal Deine Logs (messages, localmessages, warn etc.) nach "SegFault" oder "Segmentation Fault". Wenn sowas immer kurz vorm Absturzzeitpunkt gehäuft auftritt, ist es mit ziemlich hoher Wahrscheinlichkeit defekter Speicher.

Bei mir lag's daran. Nachdem das RAM getauscht wurde, nie wieder diese Meldungen oder nicht rekonstruierbare Abstürze.

chris299
Posts: 32
Joined: 2003-07-04 19:35

Re: Abstürze

Post by chris299 »

ich glaube nicht an den speicher, weil ich trotz zig Abstürzen noch nie so eine Meldung beim 1&1 root-server hatte.
(kenne das Problem aber auch von einem anderen Anbieter)

smartmontools: http://smartmontools.sourceforge.net

minibbjd
Posts: 26
Joined: 2003-05-10 22:26

Re: Abstürze

Post by minibbjd »

Um's für die Nachwelt und die Suchmachinenutzer zu erhalten: Seit dem Kernelupdate vor 2 Wochen kein weiterer Absturz mehr.

Danke an alle für die Vorschläge,
Marcus